Lucene5(3)分词器
来源:互联网 发布:淘宝退换货流程表 编辑:程序博客网 时间:2024/04/26 04:01
1、介绍
lucene默认自带的分词器对中文支持并不好,所以对于中文索引的分词器,建议使用第三方开源的中文分词器。
2、常见分词器
private String testText = "解决:就是指定paoding 的一个字典文件目录,这个文件在下载下来的压缩包中的dic中";/** * 分词器 * @return */public Analyzer getAnalyzer() { Analyzer analyzer = null; // 默认分词器 analyzer = new StandardAnalyzer(); // 中日韩语言分词器// analyzer = new CJKAnalyzer(); // 空格分词器(以空格为分词标准)// analyzer = new WhitespaceAnalyzer(); // 以标点符号来分隔的分词器// analyzer = new SimpleAnalyzer(); // 等等 return analyzer;}@Testpublic void tokenTest() throws Exception { Analyzer analyzer = getAnalyzer(); TokenStream ts = analyzer.tokenStream("myfield", testText); OffsetAttribute offsetAtt = ts.addAttribute(OffsetAttribute.class); ts.reset(); while (ts.incrementToken()) { //输出分词后的效果 System.out.println(offsetAtt.toString()); } ts.end(); ts.close();}
3、第三方中文分词器
第三方中文分词器ansj对于中文的分词效果较好,建议使用。
ansj_lucene5_plug-5.1.1.2.jar
ansj_seg-5.1.1.jar
nlp-lang-1.7.2.jar
下载链接
public Analyzer getAnalyzer() { Analyzer analyzer = new AnsjAnalyzer(TYPE.index_ansj); return analyzer;}
阅读全文
0 0
- Lucene5(3)分词器
- Lucene5学习之使用MMSeg4j分词器
- Lucene5.5.0 使用ansj分词器
- Lucene5学习之使用MMSeg4j分词器
- lucene5.5 自定义分词器跟过滤器需要注意的
- lucene5.5根据现有分词器改造做同义词分词器
- Lucene5中编写自定义同义词分词器(基于IK中文分词器)
- Lucene5中编写自定义同义词分词器(基于IK中文分词器)二
- Lucene5.3高级应用
- Lucene5.3中的Filter
- lucene全文搜索之二:创建索引器(创建IKAnalyzer分词器和索引目录管理)基于lucene5.5.3
- Lucene全文搜索之分词器:使用IK Analyzer中文分词器(修改IK Analyzer源码使其支持lucene5.5.x)
- lucene全文搜索之四:创建索引搜索器、6种文档搜索器实现以及搜索结果分析(结合IKAnalyzer分词器的搜索器)基于lucene5.5.3
- lucene分词器分词
- (3)中文分词——Python结巴分词器
- 分词器
- 分词器
- lucene分词器分词demo
- 无人机驾驶员培训学习记录(三)
- 机器学习基础之概率浅析,电影分析
- bzoj 3450: Tyvj1952 Easy(概率DP)
- Mysql语法(3):高级查询2
- 在AndroidStudio中使用ndk-stack定位Crash错误
- Lucene5(3)分词器
- 表单标签
- 开博卷首语
- bzoj1191 超级英雄Hero[二分图匹配]
- bzoj 2503 相框 欧拉回路
- Lucene5(4)修改指定索引的搜索权重
- 洛谷 2068 线段树模板:单点更新,区间求和
- 简单Java Web 开发:Eclipse+Struts2+Tomcat+MySQL(workbench)+SAE
- 剑指offer---复杂链表的复制