Luence中文分词的简单例子

来源：互联网发布：郎酒知乎编辑：程序博客网时间：2024/05/22 13:46

我用的是NetBeans的编程软件，首先建立一个java项目Luence.java，项目配置如下图：

程序如下：

package paodingtest;

import java.io.IOException;
import java.io.StringReader;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.Token;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.standard.StandardAnalyzer;

/**
*
* @author Administrator
*/
public class LuenceTest {

    /**
     * @param args the command line arguments
     */
    public static void main(String[] args) throws IOException {
        // TODO code application logic here
        Analyzer analyzer=new StandardAnalyzer();//标准过滤停用次

        //Analyzer analyzer = new SimpleAnalyzer();//简单地过滤空格和符号
        //Analyzer analyzer = new CJKAnalyzer();//中文进行两字两字拆分，英文和StandardAnalyzer功能一样
        //Analyzer analyzer = new WhitespaceAnalyzer();//过滤空格
        //Analyzer analyzer = new ChineseAnalyzer();//拆分每个字符，过滤符号（即把一句话拆分成一个一个汉字，不显示符号）

        TokenStream tokenStream=analyzer.tokenStream(" ",new StringReader("关于lucene实现中文分词的简单例子"));
        Token token=new Token();
        while(null!=tokenStream.next(token))
            System.out.print(token.term()+"|");
        System.out.println();
    }


}

运行结果如下：

run：
关|于|lucene|实|现|中|文|分|词|的|简|单|例|子|
成功生成（总时间：0 秒）