NLP 最近常用分词工具
来源:互联网 发布:大数据,银行风险 编辑:程序博客网 时间:2024/06/06 02:23
1、python工具包结巴分词,可直接使用easy_intall下载,方便。http://www.oschina.net/news/34492/jieba-0-20
2、HanLP这个Java工具包功能很强大,但在特定任务上容易出现过拟合。比如在语音识别后的文本上表现就不是那么好,容易把很多词分为人名。目前为止至少我还没找到可弥补的方法。https://github.com/hankcs/HanLP
3、Ansj这个java工具包,虽然没有HanLP新,但目前在偏口语化的文本中表现的还可以,再加上自己的词典效果还是很乐观。比HanLP适应性强。http://www.oschina.net/news/51757/ansj-1-41
总之,别人说好的东西不一定好,要根据不同任务亲手实验才是王道。
0 0
- NLP 最近常用分词工具
- 开源NLP工具(包括分词工具)
- NLP分词
- NLP分词
- NLP常用开源/免费工具
- NLP常用开源/免费工具
- NLP-汉语分词
- NLP:中文分词
- 初识nlp (1 (分词
- nlp技能,jieba分词
- NLP工具
- 一些常用的开源分词工具
- 常用的开源中文分词工具
- 常用的自然语言处理分词工具
- 【NLP】中文分词:原理及分词算法
- NLP中的中文分词技术
- NLP中的并行分词方法
- NLP(一) Ansj 分词
- matlab linprog函数的使用
- android 签名和混淆打包
- C++文件读写
- @Autowired 注释与@Qualifier 注释
- Android View的事件分发机制
- NLP 最近常用分词工具
- 用“*”画余弦曲线从0度到360度
- django.forms.widget-ChoiceInput
- AutoCompleteTextView 自动提示的用法
- PAT Advanced 1014
- Linux操作系统中,*.zip、*.tar、*.tar.gz、*.tar.bz2、*.tar.xz、*.jar、*.7z等格式的压缩与解压
- 个人笔记 html 01 实现文字滚动 <marquee>
- CoreLocation无法定位问题解决方案
- 格式化浮点数