Lucene5(3)分词器

来源:互联网 发布:淘宝退换货流程表 编辑:程序博客网 时间:2024/04/26 04:01

1、介绍

lucene默认自带的分词器对中文支持并不好,所以对于中文索引的分词器,建议使用第三方开源的中文分词器。

2、常见分词器

private String testText = "解决:就是指定paoding 的一个字典文件目录,这个文件在下载下来的压缩包中的dic中";/** * 分词器 * @return */public Analyzer getAnalyzer() {    Analyzer analyzer = null;    // 默认分词器    analyzer = new StandardAnalyzer();    // 中日韩语言分词器//  analyzer = new CJKAnalyzer();    // 空格分词器(以空格为分词标准)//  analyzer = new WhitespaceAnalyzer();    // 以标点符号来分隔的分词器//  analyzer = new SimpleAnalyzer();    // 等等    return analyzer;}@Testpublic void tokenTest() throws Exception {    Analyzer analyzer = getAnalyzer();    TokenStream ts = analyzer.tokenStream("myfield", testText);    OffsetAttribute offsetAtt = ts.addAttribute(OffsetAttribute.class);    ts.reset();    while (ts.incrementToken()) {        //输出分词后的效果        System.out.println(offsetAtt.toString());    }    ts.end();    ts.close();}

3、第三方中文分词器

第三方中文分词器ansj对于中文的分词效果较好,建议使用。
ansj_lucene5_plug-5.1.1.2.jar
ansj_seg-5.1.1.jar
nlp-lang-1.7.2.jar
下载链接

public Analyzer getAnalyzer() {    Analyzer analyzer = new AnsjAnalyzer(TYPE.index_ansj);    return analyzer;}
阅读全文
0 0
原创粉丝点击