friso中文分词器
来源:互联网 发布:大数据和电子政务 编辑:程序博客网 时间:2024/05/05 03:41
friso中文分词器
kezunhai@gmail.com
http://blog.csdn.net/kezunhai
1、相关简介
friso是使用c语言开发的一个开源的中文分词器,使用流行的mmseg算法实现。完全基于模块化设计和实现,可以很方便的植入到其他程序中,例如:MySQL,PHP等。并且提供了一个php扩展:robbe。2、功能特色
1。只支持UTF-8编码。【源码无需修改就能在各种平台下编译使用,加载完20万的词条,内存占用稳定为14M】
2。mmseg四种过滤算法,分词准确率达到了98.41%。
3。支持自定义词库。在friso源码附件的dict文件夹下,可以随便添加/删除/更改词库和词库词条,并且对词库进行了分类。
4。词库使用了friso的Java版本jcseg的简化词库。
5。支持中英/英中混合词的识别。例如:卡拉ok, 漂亮mm, c语言,IC卡。
7。很好的英文支持:英文和标点的组合词识别(例如:c++, c#, g++),电子邮件,网址,小数,分数,百分数。
8。支持阿拉伯数字基本单字单位的识别,例如2012年,5吨,120斤。
9。自动英文圆角/半角,大写/小写转换。
10。自动同义词追加, 同义词匹配。
11。自动停止词过滤。
3、分词速度
测试环境:2.8GHZ/2G/Ubuntu
简单模式:3.7M/秒
复杂模式:1.8M/秒 (mmseg的四种过滤算法)
4、Win下自主编译安装friso以及其php扩展robbe
该部分内容可以参考:WinNT下如何自主编译安装friso以及其php扩展robbe。经过测试,能够正确编译且可以使用。在使用过程中,如果正确配置dll和lib文件后,还是显示不能正确解析库里的相关函数,就在应用头部加 extern "C",因为friso是采用ANSI C编写的。
运行界面如图所示:
但程序运行后,发现输入语句,无法正确的分词。现今还没找到问题点,需要进一步深入研究。
作者:侯相,出处http://blog.csdn.net/kezunhai或http://www.feiyuntech.com/:欢迎转载或分享,但请务必声明文章出处。
0 0
- friso中文分词器
- friso中文分词器
- 【文本分类】friso中文分词器介绍(c 开源)
- friso分词器的应用
- Friso-1.6.0 发布 - C语言高性能中文分词器,GBK支持
- friso-1.6.1 发布 - C语言高性能中文分词器-检测模式切分
- C++ NLPIR+FRISO 项目的中文分词功能添加
- friso分词器在windows7下使用mingw编译和测试
- 【文本分类】Friso分词系统中MMSeg算法说明
- Java 中文分词器
- 中文分词器 jcseg
- Solr 中文分词器
- IKAnalyzer 中文分词器
- 中文分词器
- Analyzer 中文分词器
- lucene 中文分词器
- IKAnalyzer 中文分词器
- IKanalyzer中文分词器
- Association Rule Mining(1-Apriori)
- 单高斯背景建模opencv仿真
- 使用nfs在mac os x与ubuntu之间共享文件
- hdu 4995 Revenge of kNN
- ABCD过桥题的规律
- friso中文分词器
- centos系统为php安装memcached扩展
- 约瑟夫环问题
- Matlab入门二(数据保存)
- java File类了解
- 都是空格惹的祸
- 机房收费系统合作版(一)——框架搭建
- 【Hdu】Minimum Inversion Number(逆序,线段树)
- SQL删除重复数据只保留一条