Lucene4.3开发之中文分词器

来源:互联网 发布:mpp数据库都有哪些 编辑:程序博客网 时间:2024/05/13 21:04
对于Lucene4.3开发首先摆在我们面前的第一个必须要解决的问题,就是关于中文分词的问题,因为Lucene毕竟是国外的大牛们开发的,显然会比较侧重英文文章,不过还好,在Lucene的下载包里同步了SmartCN的分词器针对中文发行的,每一次Lucene有新的版本发行,这个包同时更新。

    笔者比较推荐的中文分词器是IK分词器,在进入正式的讲解之前,我们首先对Lucene里面内置的几个分析器做个了解。

    分析器类型 基本介绍

    WhitespaceAnalyzer 以空格作为切词标准,不对语汇单元进行其他规范化处理
    SimpleAnalyzer 以非字母符来分割文本信息,并将语汇单元统一为小写形式,并去掉数字类型的字符
    StopAnalyzer 该分析器会去除一些常有a,the,an等等,也可以自定义禁用词
    StandardAnalyzer Lucene内置的标准分析器,会将语汇单元转成小写形式,并去除停用词及标点符号
    CJKAnalyzer 能对中,日,韩语言进行分析的分词器,对中文支持效果一般。
    SmartChineseAnalyzer 对中文支持稍好,但扩展性差

    评价一个分词器的性能优劣,关键是看它的切词效率以及灵活性,及扩展性,通常情况下一个良好的中文分词器,应该具备扩展词库,禁用词库和同义词库,当然最关键的是还得要与自己的业务符合,因为有些时候我们用不到一些自定义词库,所以选择分词器的时候就可以不考虑这一点。IK官网发布的最新版IK分词器对于Lucene的支持是不错的,但是对于solr的支持就不够好了,需要自己改源码支持solr4.x的版本。笔者使用的另一个IK包是经过一些人修改过的可以支持solr4.3的版本,并对扩展词库,禁用词库,同义词库完全支持,而且在solr里面配置很简单,只需要在schmal.xml进行简单配置,即可使用IK分词器的强大的定制化功能。不过官网上IK作者发布的IK包在lucene里面确都不支持同义词库扩展的功能,如果你想使用,得需要自己修改下源码了,不过即使自己修改扩展同义词也是非常容易的。

    下面笔者给出使用官网最后一版发布的IK在Lucene中做的测试,笔者使用的已经扩展了同义词库部分,后面会给出源码。

    下面先看第一个纯分词的测试

  package com.ikforlucene;    import java.io.StringReader;    import org.apache.lucene.analysis.TokenStream;    import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;    public class Test {    public static void main(String[] args)throws Exception {    //下面这个分词器,是经过修改支持同义词的分词器    IKSynonymsAnalyzer analyzer=new IKSynonymsAnalyzer();    String text="三劫散仙是一个菜鸟";    TokenStream ts=analyzer.tokenStream("field", new StringReader(text));    CharTermAttribute term=ts.addAttribute(CharTermAttribute.class);    ts.reset();//重置做准备    while(ts.incrementToken()){    System.out.println(term.toString());    }    ts.end();//    ts.close();//关闭流    }    }    package com.ikforlucene;    import java.io.StringReader;    import org.apache.lucene.analysis.TokenStream;    import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;    public class Test {    public static void main(String[] args)throws Exception {    //下面这个分词器,是经过修改支持同义词的分词器    IKSynonymsAnalyzer analyzer=new IKSynonymsAnalyzer();    String text="三劫散仙是一个菜鸟";    TokenStream ts=analyzer.tokenStream("field", new StringReader(text));    CharTermAttribute term=ts.addAttribute(CharTermAttribute.class);    ts.reset();//重置做准备    while(ts.incrementToken()){    System.out.println(term.toString());    }    ts.end();//    ts.close();//关闭流    }    }<strong><a target=_blank class="channel_keylink" href="http://softtest.chinaitlab.com" target="_blank"></a></strong><pre name="code" class="java">  运行结果:    Java代码    三    劫    散    仙    是    一个    菜鸟    三    劫    散    仙    是    一个    菜鸟    第二步,测试扩展词库,使三劫为一个词,散仙为一个词,需要在同义词库里添加三劫,散仙(注意是按行读取的),注意保存的格式为UTF-8或无BOM格式即可添加扩展词库后运行结果如下:

    Java代码    package com.ikforlucene;    import java.io.IOException;    import java.io.Reader;    import java.util.HashMap;    import java.util.Map;    import org.apache.lucene.analysis.Analyzer;    import org.apache.lucene.analysis.Tokenizer;    import org.apache.lucene.analysis.synonym.SynonymFilterFactory;    import org.apache.solr.core.SolrResourceLoader;    import org.wltea.analyzer.lucene.IKTokenizer;    /**    * 可以加载同义词库的Lucene    * 专用IK分词器    *    *    * */    public class IKSynonymsAnalyzer extends Analyzer {    @Override    protected TokenStreamComponents createComponents(String arg0, Reader arg1) {    Tokenizer token=new IKTokenizer(arg1, true);//开启智能切词    Map paramsMap=new HashMap();    paramsMap.put("luceneMatchVersion", "LUCENE_43");    paramsMap.put("synonyms", "E:\\同义词\\synonyms.txt");    SynonymFilterFactory factory=new SynonymFilterFactory(paramsMap);    SolrResourceLoader loader= new SolrResourceLoader("");    try {    factory.inform(loader);    } catch (IOException e) {    // TODO Auto-generated catch block    e.printStackTrace();    }    return new TokenStreamComponents(token, factory.create(token));    }    }    package com.ikforlucene;    import java.io.IOException;    import java.io.Reader;    import java.util.HashMap;    import java.util.Map;    import org.apache.lucene.analysis.Analyzer;    import org.apache.lucene.analysis.Tokenizer;    import org.apache.lucene.analysis.synonym.SynonymFilterFactory;    import org.apache.solr.core.SolrResourceLoader;    import org.wltea.analyzer.lucene.IKTokenizer;    /**    * 可以加载同义词库的Lucene    * 专用IK分词器    *    *    * */    public class IKSynonymsAnalyzer extends Analyzer {    @Override    protected TokenStreamComponents createComponents(String arg0, Reader arg1) {    Tokenizer token=new IKTokenizer(arg1, true);//开启智能切词    Map paramsMap=new HashMap();    paramsMap.put("luceneMatchVersion", "LUCENE_43");    paramsMap.put("synonyms", "E:\\同义词\\synonyms.txt");    SynonymFilterFactory factory=new SynonymFilterFactory(paramsMap);    SolrResourceLoader loader= new SolrResourceLoader("");    try {    factory.inform(loader);    } catch (IOException e) {    // TODO Auto-generated catch block    e.printStackTrace();    }    return new TokenStreamComponents(token, factory.create(token));    }    }    关于同义词部分的使用,各位道友,可以先去官网上下载源码,然后将此同义词扩展部分放进去即可,非常简单方便。


0 0
原创粉丝点击