WhitespaceAnalyzer方法的使用

来源:互联网 发布:学java工程师 编辑:程序博客网 时间:2024/06/16 18:22

对于这个分词器,我的有一篇博客写了大概的简介(对于像我一样的新手,最好看一下),自由门:


http://blog.csdn.net/u012965373/article/details/44870855


如果你已经懂了分词器的功能,那么

这里是代码:


/*
 * Lucene核心的分词器的结构在这里基本可以分成两种
 * 一是:
 * TokenFilter可以和别的TokenFilter嵌套在一起使用,
 * 形成一个嵌套的管道过滤器的结构;
 * 二是:
 * TokenFilter可以喝Tokenizer结合在一起,
 *  用以过滤从Tokenizer中切分的词条
 *  
 *  在这里代码中使用了Lucene的WritespaceAnalyzer类。
 *  对所输入的文本进行分词
 * */
package analyzer;


import java.io.IOException;
import java.io.StringReader;


import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.Token;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.WhitespaceAnalyzer;


public class WhitespaceAnalyzerTest {


public WhitespaceAnalyzerTest() {
// TODO Auto-generated constructor stub

try{
//这里可以自行修改为输入文本或者是字符串
//需要进行分词的文本内容
String content = "str1 str2 str3";

//构造一个StringReader
StringReader reader = new StringReader(content);

//创建一个WhitespaceAnalyzer
Analyzer analyzer = new WhitespaceAnalyzer();

//获取到TokenStream对象
TokenStream ts = analyzer.tokenStream("", reader);

//开始分词
Token t = null;
System.out.println("分词器开始分词------------->>>>");
System.out.println("分词正在进行请稍后-------------->>>>");
while((t = ts.next()) != null){
//打印分词后的结果
System.out.println(t.termText());
}
System.out.println("分词结束-------------------->>>");
}catch(IOException e){
e.printStackTrace();
}
}


public static void main(String[] args) {
// TODO Auto-generated method stub
WhitespaceAnalyzerTest WAT = new WhitespaceAnalyzerTest();


}


}

0 0
原创粉丝点击