中文分词器
来源:互联网 发布:mac原生ntfs 编辑:程序博客网 时间:2024/05/18 20:36
1.IKAnalyzer
IK Analyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包。可与lucene配合使用。
IK Analyzer是一个结合词典分词和文法分词的中文分词开源工具包。它使用了全新的正向迭代最细粒度切分算法。
下载页面:http://git.oschina.net/wltea/IK-Analyzer-2012FF
central repository中似乎没有。
示例代码:
该代码的工程结构:下图
1.1部署在web应用
把IKAnalyzer.cfg.xml与stopword.dic配置在WEB-INF\lib\目录下就行了。
1.2中文停用词
中文停用词所在文件(一般就直接加在stopword.dic中)要求utf-8无bom格式编码,否则无效。
2.SmartChineseAnalyzer
org.apache.lucene.analysis.cn.smart.SmartChineseAnalyzer
是一个中文、中英混合的分词器。
2.1依赖
compile 'org.apache.lucene:lucene-analyzers-smartcn:6.0.0'
2.2 效果
Example phrase: "我是中国人"
StandardAnalyzer: 我-是-中-国-人
CJKAnalyzer: 我是-是中-中国-国人
SmartChineseAnalyzer: 我-是-中国-人
StandardAnalyzer: 我-是-中-国-人
CJKAnalyzer: 我是-是中-中国-国人
SmartChineseAnalyzer: 我-是-中国-人
3.ansj_seg
github地址:https://github.com/NLPchina/ansj_seg
它是ict 的java实现,分词效果速度都超过开源版的ict. 。
特点是中文分词,人名识别,词性标注,用户自定义词典。
分词示例:
String str = "欢迎使用ansj_seg,(ansj中文分词)在这里如果你遇到什么问题都可以联系我.我一定尽我所能.帮助大家.ansj_seg更快,更准,更自由!" ; System.out.println(ToAnalysis.parse(str)); 欢迎/v,使用/v,ansj/en,_,seg/en,,,(,ansj/en,中文/nz,分词/n,),在/p,这里/r,如果/c,你/r,遇到/v,什么/r,问题/n,都/d,可以/v,联系/v,我/r,./m,我/r,一定/d,尽我所能/l,./m,帮助/v,大家/r,./m,ansj/en,_,seg/en,更快/d,,,更/d,准/a,,,更/d,自由/a,!
2 0
- Java 中文分词器
- 中文分词器 jcseg
- Solr 中文分词器
- friso中文分词器
- IKAnalyzer 中文分词器
- friso中文分词器
- 中文分词器
- Analyzer 中文分词器
- lucene 中文分词器
- IKAnalyzer 中文分词器
- IKanalyzer中文分词器
- 中文分词器
- solr 中文分词器
- 【中文分词】亲手开发一款中文分词器--前言
- lucene的中文分词器
- lucene的中文分词器
- nutch添加中文分词器
- Java中文分词器Ansj
- Oracle数据库性能——表设计级别
- ARC 类型转换:显示转换 id 和 void *
- 草根创业前夕(二)创业案例 - 困局
- 汉诺塔问题——递归问题
- 我对CONTAINING_RECORD宏的详细解释
- 中文分词器
- MD5加密案例
- ASI-文件下载
- Cocos2d-x 定时器的浅析
- Python -- Eclipse安装PyDev插件
- Java线程同步-解决方法
- 收集的 Bootstrap 模板资源或者一些漂亮的站点
- 后缀数组(SuffixArray) 学习笔记
- SSH Secure Shell 中文显示乱码 解决办法