Luence中文分词的简单例子

来源:互联网 发布:郎酒 知乎 编辑:程序博客网 时间:2024/05/22 13:46

我用的是NetBeans的编程软件,首先建立一个java项目Luence.java,项目配置如下图:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

程序如下:

 

package paodingtest;

import java.io.IOException;
import java.io.StringReader;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.Token;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.standard.StandardAnalyzer;

/**
 *
 * @author Administrator
 */
public class LuenceTest {

    /**
     * @param args the command line arguments
     */
    public static void main(String[] args) throws IOException {
        // TODO code application logic here
        Analyzer analyzer=new StandardAnalyzer();//标准过滤停用次
       
        //Analyzer analyzer = new SimpleAnalyzer();//简单地过滤空格和符号
        //Analyzer analyzer = new CJKAnalyzer();//中文进行两字两字拆分,英文和StandardAnalyzer功能一样
        //Analyzer analyzer = new WhitespaceAnalyzer();//过滤空格
        //Analyzer analyzer = new ChineseAnalyzer();//拆分每个字符,过滤符号(即把一句话拆分成一个一个汉字,不显示符号)
       
        TokenStream tokenStream=analyzer.tokenStream(" ",new StringReader("关于lucene实现中文分词的简单例子"));
        Token token=new Token();
        while(null!=tokenStream.next(token))
            System.out.print(token.term()+"|");
        System.out.println();
    }
   
   
}

 

 

运行结果如下:

 

run:
关|于|lucene|实|现|中|文|分|词|的|简|单|例|子|
成功生成(总时间:0 秒)

原创粉丝点击