程序人生网站首页 程序人生

elasticSearch测试分析仪-标准标记器与ASCII码折叠标记过滤器、小写标记过滤器的综合应用

发布时间：2021-09-09 18:59:11编辑：雪饮阅读（）

上篇初步了解了elasticSearch测试分析仪，并了解了空白分析器的使用。

那么这次将会在elasticSearch测试分析仪上搭载标准标记器（标准分析仪）并结合ASCII码折叠标记过滤器与小写标记过滤器一起使用。

标准分词器

该standard标记生成器将文本分为单词边界条件，由Unicode文本分割算法定义。它删除了大多数标点符号。它是大多数语言的最佳选择。

ASCII码折叠标记过滤器(ASCII Folding Token Filter)

这标记过滤器名字翻译的怪怪的，asciifolding过滤器将ASCII码不在ASCII表前127内的字母、数字和Unicode符号转换为ASCII等效字符(如果存在的话)。

小写标记过滤器(Lowercase Token Filter)

lowercase标记过滤器将标记token规范化为小写，它通过language参数支持希腊语、爱尔兰语和土耳其语小写标记过滤器。

那么我们来看看一个综合的实例

http://localhost:9200/_analyze post

请求正文：

{

"tokenizer": "standard",

"filter": [ "lowercase", "asciifolding" ],

"text": "Is this déja vu?"

}

响应正文：

{

"tokens": [

{

"token": "is",

"start_offset": 0,

"end_offset": 2,

"type": "<ALPHANUM>",

"position": 0

{

"token": "this",

"start_offset": 3,

"end_offset": 7,

"type": "<ALPHANUM>",

"position": 1

{

"token": "deja",

"start_offset": 8,

"end_offset": 12,

"type": "<ALPHANUM>",

"position": 2

{

"token": "vu",

"start_offset": 13,

"end_offset": 15,

"type": "<ALPHANUM>",

"position": 3

}

]

}

可以看到这里按单词（标准标记器）进行拆分了多个令牌，那么这些令牌又都是小写的（小写标记过滤器）、并且déja给处理为deja(asciifolding过滤器将ASCII码不在ASCII表前127内的字母、数字和Unicode符号转换为ASCII等效字符(ASCII码折叠标记过滤器)).

关键字词：elasticSearch,ASCII码折叠标记过滤器,asciifolding

上一篇：elasticSearch测试分析仪

下一篇：elasticSearch索引中创建自定义分析器(custom)及按分析器名和按字段引用调用

您当前的位置： 首页 > 慢生活 > 程序人生 网站首页程序人生

elasticSearch测试分析仪-标准标记器与ASCII码折叠标记过滤器、小写标记过滤器的综合应用

相关文章

您当前的位置：首页 > 慢生活 > 程序人生网站首页程序人生