friso中文分词器

来源:互联网 发布:大数据和电子政务 编辑:程序博客网 时间:2024/05/05 03:41

     

friso中文分词器 

kezunhai@gmail.com

http://blog.csdn.net/kezunhai

       1、相关简介

        friso是使用c语言开发的一个开源的中文分词器,使用流行的mmseg算法实现。完全基于模块化设计和实现,可以很方便的植入到其他程序中,例如:MySQL,PHP等。并且提供了一个php扩展:robbe。
       2、功能特色
        1。只支持UTF-8编码。【源码无需修改就能在各种平台下编译使用,加载完20万的词条,内存占用稳定为14M】
        2。mmseg四种过滤算法,分词准确率达到了98.41%。
        3。支持自定义词库。在friso源码附件的dict文件夹下,可以随便添加/删除/更改词库和词库词条,并且对词库进行了分类。
       4。词库使用了friso的Java版本jcseg的简化词库。
       5。支持中英/英中混合词的识别。例如:卡拉ok, 漂亮mm, c语言,IC卡。
       7。很好的英文支持:英文和标点的组合词识别(例如:c++, c#, g++),电子邮件,网址,小数,分数,百分数。
       8。支持阿拉伯数字基本单字单位的识别,例如2012年,5吨,120斤。
       9。自动英文圆角/半角,大写/小写转换。
      10。自动同义词追加, 同义词匹配。
      11。自动停止词过滤。
      3、分词速度
        测试环境:2.8GHZ/2G/Ubuntu
       简单模式:3.7M/秒
      复杂模式:1.8M/秒 (mmseg的四种过滤算法)
       4、Win下自主编译安装friso以及其php扩展robbe
       该部分内容可以参考:WinNT下如何自主编译安装friso以及其php扩展robbe。经过测试,能够正确编译且可以使用。在使用过程中,如果正确配置dll和lib文件后,还是显示不能正确解析库里的相关函数,就在应用头部加 extern "C",因为friso是采用ANSI C编写的。

       运行界面如图所示:


 但程序运行后,发现输入语句,无法正确的分词。现今还没找到问题点,需要进一步深入研究。


作者:侯相,出处http://blog.csdn.net/kezunhai或http://www.feiyuntech.com/:欢迎转载或分享,但请务必声明文章出处。

0 0
原创粉丝点击