Java 中文分词器

来源:互联网 发布:数据挖掘常用分析方法 编辑:程序博客网 时间:2024/05/17 01:42

CWSS是一个开源的中文分词系统,其中它有两个版本。一个是提供对lucene3.0的支持。一个是纯中文分词,主要是为了方便大家使用。

 

CWSS1.0由来
   一个星期疯狂啃读中科院和paoding分词过程中,突然想开发一套中文分词。
  
CWSS1.0的特性:
1、采用了中科院的做法,断句处理,原子处理。
2、基于“词库”切词。
3、支持简繁体。

下载地址
http://code.google.com/p/cwss/


演示地址

http://www.agrilink.cn/cwss.jsp

分词效果示例
原文
CWSS是一个开源的,基于java语言开发的轻量级的中文分词工具包,并提供对lucene3.0的支持。目前正在测试阶段,暂不开源代码.测试完毕.在以GPL开源协议发布.
分词后
CWSS/是/一个/开源/的/基于/java/语言/开发/的/轻量级/量级/的/中文/分词/工具/工具包/并/提供/对/lucene3.0/的/支持/目前/前/正在/测试/阶段/暂/不开/源代码/代码/./测试/完毕/.在以/GPL/开源/协议/发布/./

原文
作者博客:loiy.javaeye.com 电子邮件:lzj0470@163.com
分词后
作者/博客/loiy.javaeye.com/电子/邮件/lzj0470@163.com/

原文
甘刑一终字第200号
分词后
甘刑一/终字/第/200/号/

原文
北大学生活动
分词后
北大/学生/活动/

原文
的的确确实实在在
分词后
的的确确/的确/实实在在/实在/

原文
我和你都很棒
分词后
我/和/你/都很/很棒/

原文
永和服装饰品有限公司
分词后
永和/服装/饰品/有限/公司/

原文
你欠我一万九千八百零五毛
分词后
你/欠/我/一万九千八百零五/毛/

原文
你到底喜不喜欢我
分词后
你/到底/喜/不/喜欢/我/

原文
你说不说,不说打PP
分词后
你/说不说/不说/打/PP/

 

欢迎大家使用。如果你认为分词不好,可以给我留言,我会尽量补修不足的地方。如果你认为不错,也可以发信息给我,鼓励一下下。

原创粉丝点击