中文分词器

来源:互联网 发布:java开发实战宝典 pdf 编辑:程序博客网 时间:2024/06/10 01:50

1.1 什么是中文分词器

学过英文的都知道,英文是以单词为单位的,单词与单词之间以空格或者逗号句号隔开。而中文则以字为单位,字又组成词,字和词再组成句子。所以对于英文,我们可以简单以空格判断某个字符串是否为一个单词,比如I love ChinaloveChina很容易被程序区分开来;但中文“我爱中国”就不一样了,电脑不知道“中国”是一个词语还是“爱中”是一个词语。把中文的句子切分成有意义的词,就是中文分词,也称切词。我爱中国,分词的结果是:我中国。

1.2 Lucene自带的中文分词器

StandardAnalyzer

单字分词:就是按照中文一个字一个字地进行分词。如:“我爱中国”
效果:爱”

CJKAnalyzer

二分法分词:按两个字进行切分。如:中国人,效果:是”中国“国人”

 上边两个分词器无法满足需求。

1.3 第三方中文分词器

paoding: 庖丁解牛最新版在 https://code.google.com/p/paoding/ 中最多支持Lucene 3.0,且最新提交的代码在 2008-06-03,在svn中最新也是2010年提交,已经过时,不予考虑。

mmseg4j:最新版已从 https://code.google.com/p/mmseg4j/ 移至 https://github.com/chenlb/mmseg4j-solr,支持Lucene 4.10,且在github中最新提交代码是2014年6月,从09年~14年一共有:18个版本,也就是一年几乎有3个大小版本,有较大的活跃度,用了mmseg算法。

IK-analyzer最新版在https://code.google.com/p/ik-analyzer/上,支持Lucene 4.10从2006年12月推出1.0版开始, IKAnalyzer已经推出了4个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。从3.0版本开 始,IK发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。在2012版本中,IK实现了简单的分词 歧义排除算法,标志着IK分词器从单纯的词典分词向模拟语义分词衍化。 但是也就是2012年12月后没有在更新

ansj_seg:最新版本在 https://github.com/NLPchina/ansj_seg tags仅有1.1版本,从2012年到2014年更新了大小6次,但是作者本人在2014年10月10日说明:“可能我以后没有精力来维护ansj_seg了”,现在由”nlp_china”管理。2014年11月有更新。并未说明是否支持Lucene,是一个由CRF(条件随机场)算法所做的分词算法。

imdict-chinese-analyzer:最新版在 https://code.google.com/p/imdict-chinese-analyzer/ 最新更新也在2009年5月,下载源码,不支持Lucene 4.10 。是利用HMM(隐马尔科夫链)算法。

Jcseg:最新版本在git.oschina.net/lionsoul/jcseg,支持Lucene 4.10,作者有较高的活跃度。利用mmseg算法。

1.4 使用中文分词器IKAnalyzer

IKAnalyzer继承LuceneAnalyzer抽象类,使用IKAnalyzerLucene自带的分析器方法一样,将Analyzer测试代码改为IKAnalyzer测试中文分词效果。

 如果使用中文分词器ik-analyzer,就在索引和搜索程序中使用一致的分词器ik-analyzer

 1.4.1 添加jar

 1.4.2 修改分词器代码

// 创建中文分词器

Analyzer analyzer = new IKAnalyzer();

 1.5 扩展中文词库

ikanalyzer包中拷贝配置文件classpath

<?xml version="1.0" encoding="UTF-8"?>

<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">  

<properties>  

 

    <comment>IK Analyzer扩展配置</comment>

    <!--用户可以在这里配置自己的扩展字典 -->

     <entry key="ext_dict">dicdata/mydict.dic</entry> 

     <!--用户可以在这里配置自己的扩展停词字典    -->

    <entry key="ext_stopwords">dicdata/ext_stopword.dic</entry> 

 

</properties>

 

 如果想配置扩展词和停用词,就创建扩展词的文件和停用词的文件,文件的编码要是utf-8

注意不要用记事本保存扩展词文件和停用词文件那样的话格式中是含有bom

 添加扩展词文件:ext.dic,内容如下

 1.6 使用luke测试中文分词

 使用Luke测试第三方分词器分词效果,需通过java.ext.dirs加载jar:

可简单的将第三方分词器和lukeall放在一块儿,cmd下运行:

 java -Djava.ext.dirs=. -jar lukeall-4.10.3.jar

 

 

 

 

原创粉丝点击