您当前的位置: 首页 > 慢生活 > 程序人生 网站首页程序人生
elasticSearch测试分析仪-标准标记器与ASCII码折叠标记过滤器、小写标记过滤器的综合应用
发布时间:2021-09-09 18:59:11编辑:雪饮阅读()
上篇初步了解了elasticSearch测试分析仪,并了解了空白分析器的使用。
那么这次将会在elasticSearch测试分析仪上搭载标准标记器(标准分析仪)并结合ASCII码折叠标记过滤器与小写标记过滤器一起使用。
标准分词器
该
standard
标记生成器将文本分为单词边界条件,由Unicode文本分割算法定义。它删除了大多数标点符号。它是大多数语言的最佳选择。ASCII码折叠标记过滤器(ASCII Folding Token Filter)
这标记过滤器名字翻译的怪怪的,asciifolding过滤器将ASCII码不在ASCII表前127内的字母、数字和Unicode符号转换为ASCII等效字符(如果存在的话)。
小写标记过滤器(Lowercase Token Filter)
lowercase标记过滤器将标记token规范化为小写,它通过language参数支持希腊语、爱尔兰语和土耳其语小写标记过滤器。
那么我们来看看一个综合的实例
请求正文:
{
"tokenizer": "standard",
"filter": [ "lowercase", "asciifolding" ],
"text": "Is this déja vu?"
}
响应正文:
{
"tokens": [
{
"token": "is",
"start_offset": 0,
"end_offset": 2,
"type": "<ALPHANUM>",
"position": 0
},
{
"token": "this",
"start_offset": 3,
"end_offset": 7,
"type": "<ALPHANUM>",
"position": 1
},
{
"token": "deja",
"start_offset": 8,
"end_offset": 12,
"type": "<ALPHANUM>",
"position": 2
},
{
"token": "vu",
"start_offset": 13,
"end_offset": 15,
"type": "<ALPHANUM>",
"position": 3
}
]
}
可以看到这里按单词(标准标记器)进行拆分了多个令牌,那么这些令牌又都是小写的(小写标记过滤器)、并且déja给处理为deja(asciifolding过滤器将ASCII码不在ASCII表前127内的字母、数字和Unicode符号转换为ASCII等效字符(ASCII码折叠标记过滤器)).
关键字词:elasticSearch,ASCII码折叠标记过滤器,asciifolding