中文分词工具整理

来源:互联网 发布:坐车软件哪个好 编辑:程序博客网 时间:2024/06/06 00:35

由于英文中词与词之间有空格隔开,使得英文分词的工作主要集中在词干提取(形态还原)、大小写转换等。而中文的书写习惯、一词多义等因素,决定了中文分词并不像英文分词那样简单,也使得中文分词成为中文自然语言处理的重要课题之一。
下文的中文分词工具列表是约为14年左右对当时常用中文分词器的一些调研,其中有些目前已经不能使用,仅供读者参考。

MMSEG:

* MMSEG (A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm,developed by Chih-Hao-Tsai) http://technology.chtsai.org/mmseg/* http://search.cpan.org/~dryman/Lingua-ZH-MMSEG-0.4005/lib/Lingua/ZH/MMSEG.pm* Jcseg (基于java语言开发的一款轻量级中文分词器,使用流行的MMSeg算法实现,并且提供了最新版本的lucene, solr, elasticsearch(New)的分词接口) http://git.oschina.net/lionsoul/jcseg* MMSEG4J (使用MMSeg算法实现的中文分词器,并实现lucene的analyzer和solr的TokenizerFactory以便在Lucene和Solr中使用) https://code.google.com/p/mmseg4j/* LibMMSeg (Coreseek.com为Sphinx 全文搜索引擎设计的中文分词软件包,采用MMSEG算法) http://www.coreseek.cn/opensource/mmseg/* Lingua::ZH::MMSEG (Lingua::ZH::MMSEG implements MMSEG original developed by Chih-Hao-Tsai. The whole module is rewritten in pure Perl, and the phrase library is 新酷音 forked from OpenFoundry.作者:陳仁乾) 

CRF:

* Stanford Word Segmenter ( a Java implementation of the CRF-based Chinese Word Segmenter) http://nlp.stanford.edu/software/segmenter.shtml* bamboo ( CRF模型 ) https://code.google.com/p/nlpbamboo/

ICTCLAS:

* ICTCLAS (中科院基于隐马模型研制的汉语词法分析系统,号称当前世界上最好的汉语词法分析器,有商业版和共享版) http://www.ictclas.org/* NLPIR (可视为ICTCLAS的新版本) http://ictclas.nlpir.org/* SharpICTCLAS http://ictclas.org/Down_OpenSrc.asp* phpcws (使用了“ICTCLAS 3.0 共享版中文分词算法”的API ,现已停止更新) https://code.google.com/p/phpcws/* httpcws (使用了“ICTCLAS 3.0 2009共享版中文分词算法”的API,用来取代phpcws的新分词系统) https://code.google.com/p/httpcws/

Lucene:

* IKAnalyzer (林良益基于java语言开发的一款轻量级中文分词工具包,从3.0版本开始发展为面向Java的公用分词组件) http://www.oschina.net/p/ikanalyzer* paoding (震秦开发的一款完全基于lucene的中文分词系统) http://git.oschina.net/zhzhenqin/paoding-analysis* PanGuSegment (又名盘古分词,eaglet开发的一款中英文分词组件,可结合lucene.net进行使用) http://pangusegment.codeplex.com/

其他:

* FudanNLP (复旦大学开发的一款中文自然语言处理工具包 )http://jkx.fudan.edu.cn/nlp/ https://code.google.com/p/fudannlp/* SCWS (higntman开发的一款基于词频词典的机械式中文分词引擎) http://www.xunsearch.com/scws/* jieba (基于Python的中文分词组件,有Java/C++/Node.js/Erlang的衍生版本)* smallseg https://smallseg.appspot.com/smallseg* snailseg https://snailsegdemo.appspot.com* grid (三段式机械分词以及基于信息熵的新词发现算法实现) https://github.com/GeorgeBourne/grid* CC-CEDICT (一个中文词典开源项目,提供一份以汉语拼音为中文辅助的汉英辞典)http://www.mdbg.net/chindict/chindict.php?page=cedict 

商业用途:

* ICTCLAS* 海量云分词 http://home.hylanda.com/show_5_19.html* sae新浪云计算平台分词服务 http://sae.sina.com.cn/?m=front* 玻森中文语义API http://bosonnlp.com/