您当前的位置: 首页 > 慢生活 > 程序人生 网站首页程序人生
elasticSearch创建custom分析器搭载html条带字符过滤器
发布时间:2021-09-09 21:57:09编辑:雪饮阅读()
在之前有实现过elasticSearch测试分析仪-标准标记器与ASCII码折叠标记过滤器、小写标记过滤器的综合应用。https://www.gaojiupan.cn/manshenghuo/chengxurensheng/3965.html
那么这次要实现的和上面的功能一致,但是额外要支持html条带字符过滤器。
创建custom分析器:
请求正文:
{
"settings": {
"analysis": {
"analyzer": {
"my_custom_analyzer": {
"type": "custom",
"tokenizer": "standard",
"char_filter": [
"html_strip"
],
"filter": [
"lowercase",
"asciifolding"
]
}
}
}
}
}
响应正文:
{
"acknowledged": true,
"shards_acknowledged": true,
"index": "my-index-000001"
}
那么接下来我们就可以使用这个支持html条带字符过滤器的分析器了
请求正文:
{
"analyzer": "my_custom_analyzer",
"text": "Is this <b>déjà vu</b>?"
}
响应正文:
{
"tokens": [
{
"token": "is",
"start_offset": 0,
"end_offset": 2,
"type": "<ALPHANUM>",
"position": 0
},
{
"token": "this",
"start_offset": 3,
"end_offset": 7,
"type": "<ALPHANUM>",
"position": 1
},
{
"token": "deja",
"start_offset": 11,
"end_offset": 15,
"type": "<ALPHANUM>",
"position": 2
},
{
"token": "vu",
"start_offset": 16,
"end_offset": 22,
"type": "<ALPHANUM>",
"position": 3
}
]
}
可以看到这里请求正文中,我们待分析文本中是包含html条带字符的,但是拆分出来的令牌列表中并不包含html条带字符,那么我们的预期任务就算是完成了。
关键字词:elasticSearch,custom,分析器,条带字符过滤器,char_filter
相关文章
- elasticSearch内置分析器(停用词的使用)
- elasticSearch索引中创建自定义分析器(custom)及按分
- elasticSearch测试分析仪-标准标记器与ASCII码折叠标
- elasticSearch测试分析仪
- elasticSearch类型的自动创建、动态映射与cluster.rou
- elasticSearch集群重新路由
- elasticSearch禁用自动分片分配(cluster.routing.allo
- elasticSearch将未分配的分片分配给节点
- elasticSearch利用cluster.routing.rebalance.enable
- elasticSearch已分配分片的节点移动