Java 中文分词器
来源:互联网 发布:数据挖掘常用分析方法 编辑:程序博客网 时间:2024/05/17 01:42
CWSS是一个开源的中文分词系统,其中它有两个版本。一个是提供对lucene3.0的支持。一个是纯中文分词,主要是为了方便大家使用。
CWSS1.0由来
一个星期疯狂啃读中科院和paoding分词过程中,突然想开发一套中文分词。
CWSS1.0的特性:
1、采用了中科院的做法,断句处理,原子处理。
2、基于“词库”切词。
3、支持简繁体。
下载地址
http://code.google.com/p/cwss/
演示地址
http://www.agrilink.cn/cwss.jsp
分词效果示例
原文
CWSS是一个开源的,基于java语言开发的轻量级的中文分词工具包,并提供对lucene3.0的支持。目前正在测试阶段,暂不开源代码.测试完毕.在以GPL开源协议发布.
分词后
CWSS/是/一个/开源/的/基于/java/语言/开发/的/轻量级/量级/的/中文/分词/工具/工具包/并/提供/对/lucene3.0/的/支持/目前/前/正在/测试/阶段/暂/不开/源代码/代码/./测试/完毕/.在以/GPL/开源/协议/发布/./
原文
作者博客:loiy.javaeye.com 电子邮件:lzj0470@163.com
分词后
作者/博客/loiy.javaeye.com/电子/邮件/lzj0470@163.com/
原文
甘刑一终字第200号
分词后
甘刑一/终字/第/200/号/
原文
北大学生活动
分词后
北大/学生/活动/
原文
的的确确实实在在
分词后
的的确确/的确/实实在在/实在/
原文
我和你都很棒
分词后
我/和/你/都很/很棒/
原文
永和服装饰品有限公司
分词后
永和/服装/饰品/有限/公司/
原文
你欠我一万九千八百零五毛
分词后
你/欠/我/一万九千八百零五/毛/
原文
你到底喜不喜欢我
分词后
你/到底/喜/不/喜欢/我/
原文
你说不说,不说打PP
分词后
你/说不说/不说/打/PP/
欢迎大家使用。如果你认为分词不好,可以给我留言,我会尽量补修不足的地方。如果你认为不错,也可以发信息给我,鼓励一下下。
- Java 中文分词器
- Java中文分词器Ansj
- 开源 Java 中文分词器 Ansj
- Java中文分词器Ansj的使用
- 中文分词源代码 - java
- java中文分词
- JAVA中文分词算法
- java中文分词实例
- NLPIR中文分词 java
- java中文分词算法
- java lucene中文分词
- Java中文分词组件 - word分词
- Java中文分词组件 - word分词
- Java中文分词组件 - word分词
- 中文分词器 jcseg
- Solr 中文分词器
- friso中文分词器
- IKAnalyzer 中文分词器
- 开源邮件系统安全
- PowerTip of the Day from powershell.com上周汇总(八)
- 装XP的电脑运行慢与实用解决办法
- MESSAGE: [unixODBC][MySQL][ODBC 3.51 Driver]Can't connect to local MySQL server through socket '/tmp/mysql.sock' (2)
- DPL,RPL,CPL特权级别
- Java 中文分词器
- ThreadLocal
- 作为一个成功的软件工程师需要必备哪些条件
- WIN2003无法上传较大的文件“Request 对象 错误 /’ASP 0104 : 80004005/’
- Jquery Plugin:Select box manipulation
- 还存在bug的坦克大战
- java 设计模式之一 适配器模式 adapter
- 获取当前进程ID
- SQL函数表值函数标量值函数的区别