中文分词器

来源：互联网发布：mac原生ntfs 编辑：程序博客网时间：2024/05/18 20:36

1.IKAnalyzer

IK Analyzer 是一个开源的，基于java语言开发的轻量级的中文分词工具包。可与lucene配合使用。

IK Analyzer是一个结合词典分词和文法分词的中文分词开源工具包。它使用了全新的正向迭代最细粒度切分算法。

项目地址：http://www.oschina.net/p/ikanalyzer/

下载页面：http://git.oschina.net/wltea/IK-Analyzer-2012FF

central repository中似乎没有。

示例代码：

该代码的工程结构：下图

1.1部署在web应用

把IKAnalyzer.cfg.xml与stopword.dic配置在WEB-INF\lib\目录下就行了。

1.2中文停用词

中文停用词所在文件（一般就直接加在stopword.dic中）要求utf-8无bom格式编码,否则无效。

2.SmartChineseAnalyzer

org.apache.lucene.analysis.cn.smart.SmartChineseAnalyzer

是一个中文、中英混合的分词器。

2.1依赖

compile 'org.apache.lucene:lucene-analyzers-smartcn:6.0.0'

2.2 效果

Example phrase： "我是中国人"
StandardAnalyzer: 我－是－中－国－人
CJKAnalyzer: 我是－是中－中国－国人
SmartChineseAnalyzer: 我－是－中国－人

3.ansj_seg

github地址：https://github.com/NLPchina/ansj_seg

它是ict 的java实现，分词效果速度都超过开源版的ict. 。

特点是中文分词，人名识别，词性标注，用户自定义词典。

分词示例：

String str = "欢迎使用ansj_seg,(ansj中文分词)在这里如果你遇到什么问题都可以联系我.我一定尽我所能.帮助大家.ansj_seg更快,更准,更自由!" ; System.out.println(ToAnalysis.parse(str));  欢迎/v,使用/v,ansj/en,_,seg/en,,,(,ansj/en,中文/nz,分词/n,),在/p,这里/r,如果/c,你/r,遇到/v,什么/r,问题/n,都/d,可以/v,联系/v,我/r,./m,我/r,一定/d,尽我所能/l,./m,帮助/v,大家/r,./m,ansj/en,_,seg/en,更快/d,,,更/d,准/a,,,更/d,自由/a,!

2 0