Solr 6.0 学习（四）中文IK分词

来源：互联网发布：知乎问题怎么删除编辑：程序博客网时间：2024/05/21 08:43

IK分词下载地址：http://git.oschina.net/wltea/IK-Analyzer-2012FF/

IK Analyzer 是一个开源的，基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始， IKAnalyzer已经推出了4个大版本。最初，它是以开源项目Luence为应用主体的，结合词典分词和文法分析算法的中文分词组件。从3.0版本开始，IK发展为面向Java的公用分词组件，独立于Lucene项目，同时提供了对Lucene的默认优化实现。在2012版本中，IK实现了简单的分词歧义排除算法，标志着IK分词器从单纯的词典分词向模拟语义分词衍化。

IK Analyzer 2012特性:

采用了特有的“正向迭代最细粒度切分算法“，支持细粒度和智能分词两种切分模式；
在系统环境：Core2 i7 3.4G双核，4G内存，window 7 64位， Sun JDK 1.6_29 64位普通pc环境测试，IK2012具有160万字/秒（3000KB/S）的高速处理能力。
2012版本的智能分词模式支持简单的分词排歧义处理和数量词合并输出。
采用了多子处理器分析模式，支持：英文字母、数字、中文词汇等分词处理，兼容韩文、日文字符
优化的词典存储，更小的内存占用。支持用户词典扩展定义。特别的，在2012版本，词典支持中文，英文，数字混合词语。

参考：http://www.oschina.net/code/snippet_97202_48660

参考：http://iamyida.iteye.com/blog/2220833?utm_source=tuicool&utm_medium=referral

package com.ng.util.analyzer; import org.apache.lucene.analysis.Analyzer;import org.apache.lucene.analysis.Tokenizer; public class IKAnalyzer5x extends Analyzer{     private boolean useSmart;         public boolean useSmart() {        return useSmart;    }     public void setUseSmart(boolean useSmart) {        this.useSmart = useSmart;    }     /**     * IK分词器Lucene  Analyzer接口实现类     *      * 默认细粒度切分算法     */    public IKAnalyzer5x(){        this(false);    }         /**     * IK分词器Lucene Analyzer接口实现类     *      * @param useSmart 当为true时，分词器进行智能切分     */    public IKAnalyzer5x(boolean useSmart){        super();        this.useSmart = useSmart;    }          /**    protected TokenStreamComponents createComponents(String fieldName, final Reader in) {        Tokenizer _IKTokenizer = new IKTokenizer(in , this.useSmart());        return new TokenStreamComponents(_IKTokenizer);    }    **/              /**     * 重写最新版本的createComponents     * 重载Analyzer接口，构造分词组件     */    @Override    protected TokenStreamComponents createComponents(String fieldName) {        Tokenizer _IKTokenizer = new IKTokenizer5x(this.useSmart());        return new TokenStreamComponents(_IKTokenizer);    }}package com.ng.util.analyzer; import java.io.IOException;import java.io.Reader; import org.apache.lucene.analysis.Tokenizer;import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;import org.apache.lucene.analysis.tokenattributes.OffsetAttribute;import org.apache.lucene.analysis.tokenattributes.TypeAttribute;import org.wltea.analyzer.core.IKSegmenter;import org.wltea.analyzer.core.Lexeme; public class IKTokenizer5x extends Tokenizer{          //IK分词器实现    private IKSegmenter _IKImplement;         //词元文本属性    private final CharTermAttribute termAtt;    //词元位移属性    private final OffsetAttribute offsetAtt;    //词元分类属性（该属性分类参考org.wltea.analyzer.core.Lexeme中的分类常量）    private final TypeAttribute typeAtt;    //记录最后一个词元的结束位置    private int endPosition;              /**    public IKTokenizer(Reader in , boolean useSmart){        super(in);        offsetAtt = addAttribute(OffsetAttribute.class);        termAtt = addAttribute(CharTermAttribute.class);        typeAtt = addAttribute(TypeAttribute.class);        _IKImplement = new IKSegmenter(input , useSmart);    }**/         /**     * Lucene 5.x Tokenizer适配器类构造函数     * 实现最新的Tokenizer接口     * @param useSmart     */    public IKTokenizer5x(boolean useSmart){        super();        offsetAtt = addAttribute(OffsetAttribute.class);        termAtt = addAttribute(CharTermAttribute.class);        typeAtt = addAttribute(TypeAttribute.class);        _IKImplement = new IKSegmenter(input , useSmart);    }     /* (non-Javadoc)     * @see org.apache.lucene.analysis.TokenStream#incrementToken()     */    @Override    public boolean incrementToken() throws IOException {        //清除所有的词元属性        clearAttributes();        Lexeme nextLexeme = _IKImplement.next();        if(nextLexeme != null){            //将Lexeme转成Attributes            //设置词元文本            termAtt.append(nextLexeme.getLexemeText());            //设置词元长度            termAtt.setLength(nextLexeme.getLength());            //设置词元位移            offsetAtt.setOffset(nextLexeme.getBeginPosition(), nextLexeme.getEndPosition());            //记录分词的最后位置            endPosition = nextLexeme.getEndPosition();            //记录词元分类            typeAtt.setType(nextLexeme.getLexemeTypeString());                      //返会true告知还有下个词元            return true;        }        //返会false告知词元输出完毕        return false;    }         /*     * (non-Javadoc)     * @see org.apache.lucene.analysis.Tokenizer#reset(java.io.Reader)     */    @Override    public void reset() throws IOException {        super.reset();        _IKImplement.reset(input);    }            @Override    public final void end() {        // set final offset        int finalOffset = correctOffset(this.endPosition);        offsetAtt.setOffset(finalOffset, finalOffset);    }}

0 0