中文分词

来源:互联网 发布:陕西省大数据集团咋样 编辑:程序博客网 时间:2024/04/27 13:29

在网上找了n天的关于中文分词的文章,发现一些有用的资源:

1、计算所汉语词法分析系统 ictclas 提供源代码C++的,不过好象编译之后和作者提供的程序分词结果有出入,源代码研究中。

2、猎兔推出的ictclas 的 .net版本 http://www.lietu.com/doc/LuceneDotNetSeg.htm 试用版,可以反编译,有同样问题,分词的结果不是很理想。

3、www.rainsts.net 提供的分词组件 ,采用c#.net 编写 分词结果还可以,不过不提供V2版下载 ,V1版字典无法扩充,由于使用混淆器,反编译失败,暂时选择这个组件使用。

4、还有其他一些作者写的分词的代码,和商业使用的模块,由于没有实验,不知道效率和准确性如何,这里不做描述。