Ansj自定义词典
来源:互联网 发布:js for in return 编辑:程序博客网 时间:2024/06/05 06:14
1.首先添加ansj的maven依赖
<dependency> <groupId>org.ansj</groupId> <artifactId>ansj_seg</artifactId> <version>5.1.2</version></dependency>
2.使用ansj测试分词
public class WordSegmentTest { @Test public void wordTest(){ String str = "这是一段测试文字";Result result=NlpAnalysis.parse(str);List<Term> termList=result.getTerms();for(Term term:termList){ System.out.println(term.getName()+":"+term.getNatureStr());} }}输出结果:
这:r是:v一段:m测试:vn文字:n假如想把‘这是’当做一个词来分,可以使用以下两种方法:
(1)使用DicLibrary添加自定义分词
public class WordSegmentTest { @Test public void wordTest(){ String str = "这是一段测试文字"; DicLibrary.insert(DicLibrary.DEFAULT, "这是");//设置自定义分词Result result=NlpAnalysis.parse(str);List<Term> termList=result.getTerms();for(Term term:termList){ System.out.println(term.getName()+":"+term.getNatureStr());} }}输出结果:
这是:userDefine一段:m测试:vn文字:n
(2)官方给出的方法一:
在resource目录下创建library文件夹,然后在该文件夹下创建userLibrary.dic字典文件
在userLibrary.dic文件中添加自定义分词:
这是r1000
这里假设‘这是’的词性是r
在resource目录下创建library.properties,在配置文件中配置userLibraryuserLibrary=library/userLibrary.dic但是直接测试发现并没有起作用,然后查资料,需要Library加载自定义字典文件,完成Forest的实例化,分词时再将forest对象传入才生效:
public class WordSegmentTest { @Test public void wordTest(){ Forest forest = null; try { forest=Library.makeForest(WordSegmentTest.class.getResourceAsStream("/library/userLibrary.dic"));//加载字典文件 String str = "这是一段测试文字"; Result result=NlpAnalysis.parse(str,forest);//传入forest List<Term> termList=result.getTerms(); for(Term term:termList){ System.out.println(term.getName()+":"+term.getNatureStr()); } } catch (Exception e) { e.printStackTrace(); } }}输出结果:
这是:r一段:m测试:vn文字:n
参考:
http://nlpchina.github.io/ansj_seg/
http://bbs.csdn.net/topics/391492653
http://www.cnblogs.com/en-heng/p/6274881.html
阅读全文
0 0
- Ansj自定义词典
- ansj词典加载及简洁分词过程
- S60自定义词典
- paoding自定义词典使用
- gensim自定义词典加载
- Ansj中文分词Java开发自定义和过滤词库
- paoding自定义词典研究1
- paoding自定义词典研究2
- 全文索引--自定义chinese_lexer词典
- java ansj5.0.1自定义词典
- jieba 分词自定义词典问题
- ansj_seg 学习,自定义词典加载
- jieba 分词自定义词典问题
- Ik分词器自定义词典
- 庖丁解牛分词之自定义词库[自定义词典]
- IK中文分词扩展自定义词典!!!
- stanford segmenter加入自定义用户词典
- Paoding、mmseg4j、IK Analyzer添加自定义词典
- K3脱离域环境不能正常使用的解决办法
- get,post,jsonp数据交互—百度下拉列表
- poj 2778 _DNA Sequence (AC自动机+矩阵快速幂)
- ETH-转载
- Shiro 简单介绍
- Ansj自定义词典
- 维基百科上的前端术语翻译
- HDU-2017 多校训练赛9-1008-Numbers
- 栈的应用Ⅱ--迷宫问题
- HYSBZ-2190(欧拉函数)&&hdu-2814(容斥原理)
- 遇到同样问题留存:CLR 无法从 COM 上下文 0x318638 转换为 COM 上下文 0x3187a8,这种状态已持续 60 秒
- 信用卡评分笔记
- hdu6165-tarjan&&多校9&&模板修正|XJB暴力-FFF at Valentine
- hdu6168 Numbers