ShootSearch 中文分词组件(c#开源)

来源:互联网 发布:淘宝批量添加图片 编辑:程序博客网 时间:2024/05/17 06:40

ShootSearch 中文分词组件(c#开源)

技术支持:support@shootsoft.net
         http://www.shootsoft.net
  
分词算法:词库+最大匹配
词库来自www.jesoft.cn,已经过一定的修改

使用说明:

先加载词库,再进行分词.分词过程重载两次:支持回车的和不支持回车的,注意选择!
可以手动添加词语到sDict.txt,不过每次手动修改后需要调用SortDic()方法,否则无法实现最大匹配!
sDict.txt的编码为UTF-8!

示例:
文字内容来自:http://tech.tom.com/2006-08-09/04B5/34545343.html

using ShootSeg;
...

Segment seg = new Segment();
seg.InitWordDics();
string str="日前,奇虎董事长周鸿祎新推出了一款反流氓软件“360安全卫士”,并将雅虎中国3721网络实名定义为流氓软件。此举引起了雅虎员工的强烈不满,甚至有就职于雅虎的原3721员工声称将起诉周鸿祎。围绕着3721这个产品,引发了一场雅虎中国与奇虎之间的战争。";
seg.Separator = "/";
Console.WriteLine(seg.SegmentText(str.Text,true));

日前/,/奇虎/董事长/周鸿祎/新/推出/了/一款/反/流氓/软件/“/360/安全/卫士/”/,/并将/雅虎/中国/3721/网络实名/定义/为/流氓/软件/。/此举/引起/了/雅虎/员工/的/强烈不满/,/甚至有/就职/于/雅虎/的/原/3721员/工/声称/将/起诉/周鸿祎/。/围绕着/3721/这个/产品/,/引发/了/一场/雅虎/中国/与/奇虎/之间/的/战争/。/

不加人名识别效果如下:

日前/,/奇/虎/董事长/周/鸿/祎/新/推出/了/一款/反/流氓/软件/“/360/安全/卫士/”/,/并将/雅虎/中国/3721/网络实名/定义/为/流氓/软件/。/此举/引起/了/雅虎/员工/的/强烈不满/,/甚至有/就职/于/雅虎/的/原/3721员/工/声称/将/起诉/周/鸿/祎/。/围绕着/3721/这个/产品/,/引发/了/一场/雅虎/中国/与/奇/虎/之间/的/战争/。/

2006-8-9----1.0 bate 060809
支持英文、数字、中文(简体)混合分词
常用的数量和人名的匹配
超过22万词的词库整理
实现正向最大匹配算法
智能数字,日期,人名识别

与DotLucene的接口我还没有写好,太忙了...

原创粉丝点击