Lucene九(分词)
来源:互联网 发布:淘宝达人怎么介绍 编辑:程序博客网 时间:2024/06/14 10:28
Lucene3.5中有这四大类分词器:SimpleAnalyzer、StopAnalyzer、WhiltespaceAnalyzer、StandardAnalyzer。
分词流程:
Tokenizer:
TokenFilter:
TokenStream中保存的信息如下:
了解了分词流程和TokenStream之后,可以通过代码来查看分词信息:
package cn.liuys.lucene.util;
import java.io.IOException;
import java.io.StringReader;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.apache.lucene.analysis.tokenattributes.OffsetAttribute;
import org.apache.lucene.analysis.tokenattributes.PositionIncrementAttribute;
import org.apache.lucene.analysis.tokenattributes.TypeAttribute;
public class AnalyzerUtil {
/**
* @param str
* @param a
* 显示分词详细信息
*/
public static void displayAllTokenInfo(String str,Analyzer a){
TokenStream stream = a.tokenStream("content", new StringReader(str));
//位置增量
PositionIncrementAttribute pia = stream.addAttribute(PositionIncrementAttribute.class);
//偏移量
OffsetAttribute oa = stream.addAttribute(OffsetAttribute.class);
//词汇单元
CharTermAttribute cta = stream.addAttribute(CharTermAttribute.class);
//类型
TypeAttribute ta = stream.addAttribute(TypeAttribute.class);
try {
for(;stream.incrementToken();){
System.out.print(pia.getPositionIncrement()+":");
System.out.print(cta+"["+oa.startOffset()+"-"+oa.endOffset()+"]--->"+ta.type()+"\n");
}
} catch (IOException e) {
e.printStackTrace();
}
}
}
package cn.liuys.lucene.test;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.SimpleAnalyzer;
import org.apache.lucene.analysis.StopAnalyzer;
import org.apache.lucene.analysis.WhitespaceAnalyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.util.Version;
import org.junit.Test;
import cn.liuys.lucene.util.AnalyzerUtil;
public class TestAnalyzer {
@Test
public void test03(){
Analyzer a1 = new StandardAnalyzer(Version.LUCENE_35);
Analyzer a2 = new StopAnalyzer(Version.LUCENE_35);
Analyzer a3 = new SimpleAnalyzer(Version.LUCENE_35);
Analyzer a4 = new WhitespaceAnalyzer(Version.LUCENE_35);
String str = "how are you thank you";
AnalyzerUtil.displayAllTokenInfo(str, a1);
System.out.println("-------------------------------------");
AnalyzerUtil.displayAllTokenInfo(str, a2);
System.out.println("-------------------------------------");
AnalyzerUtil.displayAllTokenInfo(str, a3);
System.out.println("-------------------------------------");
AnalyzerUtil.displayAllTokenInfo(str, a4);
}
}
- Lucene九(分词)
- lucene中文分词(转)
- lucene分词
- lucene分词
- Lucene 分词
- lucene分词器分词
- Lucene十(自定义分词器、中文分词器)
- Lucene和PanGu(盘古分词)
- Lucene学习笔记(5)-分词
- Lucene 4.2.1入门教程(分词)
- lucene学习笔记(四)lucene分词详解
- lucene分词器分词demo
- Lucene 分词 统计分词次数
- lucene(四) lucene分词器
- Lucene 分词原理
- Lucene 分词原理
- Lucene 分词原理
- Lucene 分词原理
- CDH升级记录(5.1->5.2)
- wait 和 sleep的区别
- 对于拓展欧几里德算法的理解
- 初探数据结构之“树”的定义和二叉树定义及性质
- 000
- Lucene九(分词)
- JAVA中文件的编码
- ROS学习--(十一)创建ROS的信息和服务
- 周赛-KIDx's Pagination
- ExpandableListView的无法得到OnChildClickListener点击事件的解决办法
- JFinal 问题集
- MongoDB 在windows shell环境下的基本操作和命令的使用示例(二)
- 周赛-Heros and Swords
- swift学习之闭包(closure)