Elasticsearch笔记六之中文分词器及自定义分词器
来源:互联网 发布:淘宝投放手机详情 编辑:程序博客网 时间:2024/06/08 08:55
中文分词器
在lunix下执行下列命令,可以看到本来应该按照中文”北京大学”来查询结果es将其分拆为”北”,”京”,”大”,”学”四个汉字,这显然不符合我的预期。这是因为Es默认的是英文分词器我需要为其配置中文分词器。
curlHTTP://192.168.79.131:9200/shb01/_analyze?pretty=true -d'{"text":"北京大学"}'
Es整合ik不直接用ik官网的工具包,需要将ik工具包封装成es插件才行,这个已经有人封装好了可以在github上下载elasticsearch-analysis-ik
1:在github上下载ik插件源码
https://github.com/medcl/elasticsearch-analysis-ik
2:下载后解压缩在根目录下使用maven对其进行编译。
编译后把target/release目录下的elasticsearch-analysis-ik-1.3.0.zip上传到/usr/local/elasticsearch-1.4.4/plugins/analysis-ik目录下然后使用unzip解压。
把下载的ik插件中config目录下的文件拷贝到/usr/local/elasticsearch-1.4.4/config目录下,这些文件时ik的配置文件,custom是自定义词库文件。
3:修改elasticsearch.yml文件,把ik分词器设置为es的默认分词器
index.analysis.analyzer.default.type:ik
4:重启es,注意es中的每个节点都要进行上述配置。
自定义分词器
1:创建一个dic文件,编码格式必须为utf-8无BOM格式,每个词一行多个词需要换行。
2:将自定义的dic文件上传到/usr/local/elasticsearch-1.4.4/config/custom目录下
3:修改ik的配置文件/usr/local/elasticsearch-1.4.4/config/IKAnalyzer.cfg.xml,在其中指定自定义的dic文件。
4:重启es
- Elasticsearch笔记六之中文分词器及自定义分词器
- Elasticsearch笔记六之中文分词器及自定义分词器
- elasticsearch 中文分词器讲解
- 安装elasticsearch及中文分词器、客户端连接示例
- 为Elasticsearch添加中文分词,对比分词器效果
- 为 Elasticsearch 添加中文分词,对比分词器效果
- 为Elasticsearch添加中文分词,对比分词器效果
- 为Elasticsearch添加中文分词,对比分词器效果
- ElasticSearch配置ik中文分词器
- elasticsearch中文分词器IK安装
- ElasticSearch 系列(3) 安装中文分词器
- Elasticsearch集成中文分词器ik
- ElasticSearch IK中文分词器安装
- 解决elasticsearch安装中文分词器
- ElasticSearch之分词器进阶-修复ansj分词器bug
- ElasticSearch分词器
- Lucene十(自定义分词器、中文分词器)
- elasticsearch-2.1.1 安装中文分词器 elasticsearch-analysis-ik
- 百度传课 amazeUI 按钮交互 作业
- mina源码学习之IoSession
- *浙大PAT甲级 1114 并查集
- 汉诺塔系列1
- OpenGL实现二维图的平移
- Elasticsearch笔记六之中文分词器及自定义分词器
- hdu 5437优先队列
- 【工控机开发】‘close' was not declared in this scope
- WIN32 进程间通讯-共享内存
- java io流详解(二)对象输入输出流
- java例题学习:面向对象之员工类
- 美颜主要代码实现
- 程序包com.sun.image.codec.jpeg不存在 的解决办法
- Python学习笔记之十一——标准库概览第Ⅰ部分