Lucene中文分词介绍

来源：互联网发布：短租房网站源码php 编辑：程序博客网时间：2024/05/02 04:21

由于lucene自带的分词方式对中文分词十分的不友好，所以在对一段中文中的某个词组进行搜索时，需要在创建索引是对其进行分词。下面介绍一些常见的中文分词器。
一、IK Analyzer
IK Analyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始， IKAnalyzer已经推出了4个大版本。最初，它是以开源项目Luence为应用主体的，结合词典分词和文法分析算法的中文分词组件。从3.0版本开始，IK发展为面向Java的公用分词组件，独立于Lucene项目，同时提供了对Lucene的默认优化实现。在2012版本中，IK实现了简单的分词歧义排除算法，标志着IK分词器从单纯的词典分词向模拟语义分词衍化。
项目网站:
google：https://code.google.com/p/ik-analyzer
github：https://github.com/wks/ik-analyzer
二、jcseg
Jcseg是使用Java开发的一个开源中文分词器，使用流行的mmseg算法实现，并且提供了最高版本的lucene, solr, elasticsearch(New)的分词接口。
切分模式：
(1).简易模式：FMM算法，适合速度要求场合。
(2).复杂模式-MMSEG四种过滤算法，具有较高的岐义去除，分词准确率达到了98.41%。
(3).(!New)检测模式：只返回词库中已有的词条，很适合某些应用场合。(1.9.4版本开始)
项目地址：
google：https://code.google.com/p/jcseg/
github：http://git.oschina.net/lionsoul/jcseg
三、Paoding
庖丁中文分词库是一个使用Java开发的，可结合到Lucene应用中的，为互联网、企业内部网使用的中文搜索引擎分词组件。Paoding填补了国内中文分词方面开源组件的空白，致力于此并希翼成为互联网网站首选的中文分词开源组件。 Paoding中文分词追求分词的高效率和用户良好体验。
Paoding's Knives 中文分词具有极高效率和高扩展性。引入隐喻，采用完全的面向对象设计，构思先进。
高效率：在PIII 1G内存个人机器上，1秒可准确分词 100万汉字。
采用基于不限制个数的词典文件对文章进行有效切分，使能够将对词汇分类定义。
能够对未知的词汇进行合理解析。
项目地址：
google：https://code.google.com/p/paoding/
oschina：http://git.oschina.net/zhzhenqin/paoding-analysis
四、mmseg4j
mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法实现的中文分词器，并实现 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。
MMSeg 算法有两种分词方法：Simple和Complex，都是基于正向最大匹配。Complex 加了四个规则过虑。官方说：词语的正确识别率达到了 98.41%。mmseg4j 已经实现了这两种分词算法。
项目地址：https://github.com/chenlb/mmseg4j-from-googlecode
五、JE-Analysis
Lucene中文分词组件JE-Analysis1.4.0 分词效率：第一次分词需要1－2秒（读取词典），之后速度基本与Lucene自带分词持平。该组件免费安装使用传播，无限制商业应用，但暂不开源，也不提供任何保证。
介绍：1.Lucene中文分词组件 JE-Analysis 1.5.1

参考文章：
1.Lucene/Solr 中文分词比较
2.Paoding分词器for Lucene4.x-Solr4.x
3.中文分词器IK和Paoding技术对比
4.中文分词器分词效果评估对比

5.当前几个主要的Lucene中文分词器的比较

0 0