word中文分词

来源:互联网 发布:php 反射类 编辑:程序博客网 时间:2024/05/01 15:13

word分词是一个Java实现的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。 能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。 同时提供了Lucene、Solr、ElasticSearch插件。

1.案例一,自定义分词;

2.分词,保留分用词和不保留分用词

2.计算相似度;

3.词频统计

4.拆词和组词

5.同义词标注

6.词性标注

7.做反义标注

8.拼音标注

源代码参考百度网盘分词文件夹

https://github.com/ysc/word

0 0