WhitespaceAnalyzer方法的使用

来源：互联网发布：学java工程师编辑：程序博客网时间：2024/06/16 18:22

对于这个分词器，我的有一篇博客写了大概的简介（对于像我一样的新手，最好看一下），自由门：

http://blog.csdn.net/u012965373/article/details/44870855

如果你已经懂了分词器的功能，那么

这里是代码：

/*
* Lucene核心的分词器的结构在这里基本可以分成两种
* 一是：
* TokenFilter可以和别的TokenFilter嵌套在一起使用，
* 形成一个嵌套的管道过滤器的结构；
* 二是：
* TokenFilter可以喝Tokenizer结合在一起，
* 用以过滤从Tokenizer中切分的词条
*
* 在这里代码中使用了Lucene的WritespaceAnalyzer类。
* 对所输入的文本进行分词
* */
package analyzer;

import java.io.IOException;
import java.io.StringReader;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.Token;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.WhitespaceAnalyzer;

public class WhitespaceAnalyzerTest {

public WhitespaceAnalyzerTest() {
// TODO Auto-generated constructor stub

try{
//这里可以自行修改为输入文本或者是字符串
//需要进行分词的文本内容
String content = "str1 str2 str3";

//构造一个StringReader
StringReader reader = new StringReader(content);

//创建一个WhitespaceAnalyzer
Analyzer analyzer = new WhitespaceAnalyzer();

//获取到TokenStream对象
TokenStream ts = analyzer.tokenStream("", reader);

//开始分词
Token t = null;
System.out.println("分词器开始分词------------->>>>");
System.out.println("分词正在进行请稍后-------------->>>>");
while((t = ts.next()) != null){
//打印分词后的结果
System.out.println(t.termText());
}
System.out.println("分词结束-------------------->>>");
}catch(IOException e){
e.printStackTrace();
}
}

public static void main(String[] args) {
// TODO Auto-generated method stub
WhitespaceAnalyzerTest WAT = new WhitespaceAnalyzerTest();

}

}

0 0