IKAnalyzer配置扩展词库经验总结
来源:互联网 发布:商城二次开发 php 编辑:程序博客网 时间:2024/06/09 19:31
IKAnalyzer对于中文分词效果较好,但是在实际应用过程中经常会遇到分词效果不理想的情况,比如中文中夹杂的英文缩写,英文与数字混合(如软件版本号)等,这时就需要配置扩展词库。配置的主要方法为编辑IKAnalyzer.cfg.xml文件,并创建相应的.dic文件。在配置过程中,遇到如下两个问题:
1.编码问题,dic文件需要以uft8格式编码,否则分词器无法正确识别,而windows下的notepad默认是以GBK编码的;
2.IKAnalyzer在初始化时需要选择非智能模式,即Analyzer ik = new IKAnalyzer(false), 否则在扩展词库中添加的词汇有可能不被识别。
参考:
1. http://www.oschina.net/question/166087_149161?sort=time
2. http://blog.csdn.net/whzhaochao/article/details/50130605
1.编码问题,dic文件需要以uft8格式编码,否则分词器无法正确识别,而windows下的notepad默认是以GBK编码的;
2.IKAnalyzer在初始化时需要选择非智能模式,即Analyzer ik = new IKAnalyzer(false), 否则在扩展词库中添加的词汇有可能不被识别。
参考:
1. http://www.oschina.net/question/166087_149161?sort=time
2. http://blog.csdn.net/whzhaochao/article/details/50130605
0 0
- IKAnalyzer配置扩展词库经验总结
- IKAnalyzer 独立使用 配置扩展词库
- IKAnalyzer 独立使用 配置扩展词库
- IKAnalyzer 扩展分词库
- [solr] - IKAnalyzer 扩展分词库
- [solr] - IKAnalyzer 扩展分词库
- IKAnalyzer 添加扩展词库和自定义词
- Lucene建立索引 使用IKAnalyzer扩展词库
- Lucene使用IKAnalyzer分词实例 及 IKAnalyzer扩展词库
- Lucene使用IKAnalyzer分词实例 及 IKAnalyzer扩展词库
- 在Solr4.10配置IKAnalyzer 同义词、扩展词库、停顿词详解
- 在Solr4.10配置IKAnalyzer 同义词、扩展词库、停顿词详解
- Solr6配置中文分词库 IKAnalyzer
- IKAnalyzer 配置扩展词典
- IKAnalyzer 独立使用 配置扩展词典
- IKAnalyzer 独立使用 配置扩展词典
- IKAnalyzer如何自定义远端词库
- IKAnalyzer如何自定义远端词库
- 基于 dpdk-nginx 的 c1000k 并发研发
- 第一次苏嵌上课
- WEB 杂记
- 基于Hexo+GitHub Pages+独立域名 搭建博客详细教程
- Android应用开发入门经典学习笔记07--activity和fragment
- IKAnalyzer配置扩展词库经验总结
- “音之国度”游戏UI界面分析(一级界面)
- 学习笔记| AS入门(三) 布局篇
- 特种兵数据库手抄
- CNN中使用SVM进行分类(keras的实现)
- Unity MMO游戏架构设计之角色设计二
- 数据挖掘包
- 树莓派学习-I2c通信
- 代理模式