Elasticsearch自定义分析器analyzer分词实践
发布日期:2021-07-01 06:13:43
浏览次数:2
分类:技术文章
本文共 1948 字,大约阅读时间需要 6 分钟。
基础知识回顾
分析器的组成结构:
分析器(analyzer) - Character filters (字符过滤器)0个或多个 - Tokenizer (分词器)有且只有一个 - Token filters (token过滤器)0个或多个
内置分析器
1、whitespace 空白符分词
POST _analyze{ "analyzer": "whitespace", "text": "你好 世界"}{ "tokens": [ { "token": "你好", "start_offset": 0, "end_offset": 2, "type": "word", "position": 0 }, { "token": "世界", "start_offset": 3, "end_offset": 5, "type": "word", "position": 1 } ]}
2、pattern正则表达式分词,默认表达式是\w+
(非单词字符)
配置参数
pattern : 一个Java正则表达式,默认 \W+flags : Java正则表达式flags。比如:CASE_INSENSITIVE 、COMMENTSlowercase : 是否将terms全部转成小写。默认truestopwords : 一个预定义的停止词列表,或者包含停止词的一个列表。默认是 _none_stopwords_path : 停止词文件路径
// 拆分中文不正常POST _analyze{ "analyzer": "pattern", "text": "你好世界"}{ "tokens": []}// 拆分英文正常POST _analyze{ "analyzer": "pattern", "text": "hello world"}{ "tokens": [ { "token": "hello", "start_offset": 0, "end_offset": 5, "type": "word", "position": 0 }, { "token": "world", "start_offset": 6, "end_offset": 11, "type": "word", "position": 1 } ]}// 在索引上自定义分析器-竖线分隔PUT my-blog{ "settings": { "analysis": { "analyzer": { "vertical_line": { "type": "pattern", "pattern": "\\|" } } } }, "mappings": { "doc": { "properties": { "content": { "type": "text", "analyzer": "vertical_line" } } } }} // 测试索引分析器 POST /blog-v4/_analyze{ "analyzer": "vertical_line", "text": "你好|世界"}POST /blog-v4/_analyze{ "field": "content", "text": "你好|世界"}// 两者结果都是{ "tokens": [ { "token": "你好", "start_offset": 0, "end_offset": 2, "type": "word", "position": 0 }, { "token": "世界", "start_offset": 3, "end_offset": 5, "type": "word", "position": 1 } ]}
参考
转载地址:https://pengshiyu.blog.csdn.net/article/details/108854769 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!
发表评论
最新留言
留言是一种美德,欢迎回访!
[***.207.175.100]2024年04月25日 17时43分34秒
关于作者
喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
ubuntu opencv-python 安装很慢问题
2019-05-01
MySQL5.7版本修改了my.ini配置文件后mysql服务无法启动问题
2019-05-01
Azkaban体系结构
2019-05-01
机器学习之重头戏-特征预处理
2019-05-01
synchronized底层实现及锁的升级、降级
2019-05-01
PermGen space-永久区内存溢出
2019-05-01
Maven继承和聚合
2019-05-01
Apache Kafka:优化部署的 10 种最佳实践
2019-05-01
Leetcode 35. 搜索插入位置 c#
2019-05-01
[9] JMeter-常用函数的使用
2019-05-01
[12] JMeter-结果分析之图形图表
2019-05-01
使用aspose.words 18.6实现pdf文档转换
2019-05-01
Java数组详解
2019-05-01
vs中动态DLL与静态LIB工程中加入版本信息的方法
2019-05-01
大数据分析技术与应用一站式学习(值得收藏)_v20200418
2019-05-01
Qt 在windows下的串口读写
2019-05-01
自定义Starter
2019-05-01
分布式事务原理探究(一)
2019-05-01