elasticsearch中文分词(mmseg)——手动添加词典
来源:互联网 发布:mysqldump恢复数据库 编辑:程序博客网 时间:2024/04/29 10:00
elasticsearch本身的中文分词插件效果都不理想,手动添加词典可以在一定程度上进行弥补。
经过多次实验发现,mmseg的分词机制采用正向最长匹配算法,例如,针对“小时代”这个单词,其自带的词典中没有包含该词,故当用户搜索小时代时,检索不到任何结果。
在咸鱼老婆的虚心指导下,我终于找到了解决办法。
手动添加该词到mmseg的词库中,有两种方法:
1、将该词加入到自带的某个词典中(非停顿词词典),如words-my.dic。
2、新建一个自定义词典,将其放入默认词库文件夹下,注意编码格式为以UTF-8无BOM格式编码。
(注意:如果将elasticsearch部署在集群时,相应的配置文件词典均需修改)
期间,咸鱼老婆一直对我循循善诱的指导,令我茅塞顿开。同时,还不厌其烦的为我拨开我最爱的小桂圆,令我甚是感动。
相信若干年后,回味起解决手动添加词库问题的今晚,仍然会感到一股暖流涌上心头。
重启elasticsearch服务:elasticsearch restart
针对目标文件,重新建立索引,搜索“小时代”,即可查询到目标文件。
最后,再次感谢我亲爱的咸鱼老婆。撒狼黑!!!
1 0
- elasticsearch中文分词(mmseg)——手动添加词典
- mmseg中文分词软件包
- MMSEG 中文分词算法
- MMSeg中文分词算法
- MMSEG中文分词算法
- MMSeg中文分词算法
- MMSeg中文分词算法
- MMSEG 中文分词算法
- mmseg 中文分词
- coreseek添加mmseg分词
- (2)中文分词——基于词典的方法
- sphinx mmseg mysql 中文分词
- coreseek+mmseg实现中文分词
- Mmseg中文分词算法解析
- 为coreseek添加mmseg分词
- 为coreseek添加mmseg分词
- 为coreseek添加mmseg分词
- elasticsearch小记之——中文分词
- rvm 安装 ruby
- [Cocos2d-x]Cocos2d-x 3.2 学习笔记
- <收藏> 我的算法学习之路
- RUDP之二 —— Sending and Receiving Packets
- Swift类与结构体
- elasticsearch中文分词(mmseg)——手动添加词典
- 图像处理之边缘检测概述
- 网络请求 新闻翻翻看 (OC UINavigationController NSURL UITableView UIWebView )
- 玩转Android Camera开发(四):预览界面四周暗中间亮,只拍摄矩形区域图片(附完整源码)
- wordpress Google AdSense 谷歌adsense插件
- 【图】最小费用最大流MCMF
- ASP.NET中Request.ApplicationPath、Request.FilePath、Request.Path、.Request.MapPath、
- C++ explicit关键字应用方法详解
- 好博客收藏