lucene 4.3 中文分词代码演示
来源:互联网 发布:白领 男装品牌 知乎 编辑:程序博客网 时间:2024/06/06 21:40
首页导入开发需要的架包:
这里采用的中文分词器是mmseg4j:
mmseg4j用Chih-Hao Tsai 的MMSeg算法实现的中文分词器,并实现lucene的analyzer和solr的TokenizerFactory以方便在Lucene和Solr中使用。 MMSeg 算法有两种分词方法:Simple和Complex,都是基于正向最大匹配。Complex加了四个规则过虑。官方说:词语的正确识别率达到了 98.41%。mmseg4j已经实现了这两种分词算法。
核心代码:
/**
* 显示分词信息
* @param str
* @param a
* @Adder by arvin 2013-7-2 下午5:02:24
*/
public static void displayToken(String str,Analyzer a) {
try {
TokenStream stream = a.tokenStream("content",new StringReader(str));
//创建一个属性,这个属性会添加流中,随着这个TokenStream增加
CharTermAttribute cta = stream.addAttribute(CharTermAttribute.class);
stream.reset();
while(stream.incrementToken()) {
System.out.print("["+cta+"]");
}
System.out.println();
stream.end();
} catch (IOException e) {
e.printStackTrace();
}
}
@Test
public void testAnalyzer(){
//中文分词器
Analyzer a5=new MMSegAnalyzer();
String str="我的家乡在福建省龙岩市";
AnalyzerUtils.displayToken(str, a5);
}
结果显示:
[我的][家乡][在][福建][建省][龙][岩][市]
- lucene 4.3 中文分词代码演示
- lucene 4.3 自定义中文分词器代码演示
- lucene 4.3 通过TokenStream显示分词代码演示
- lucene 4.3 ansj分词演示
- Lucene中文分词
- Lucene中文分词“庖丁解牛”
- Lucene中文分词
- Lucene 2.3 中文分词
- Lucene中文分词
- Lucene中文分词
- lucene-NGram中文分词
- lucene-JE中文分词
- GTAnalyzer-lucene中文分词
- lucene 分词处理中文
- Lucene整理--中文分词
- lucene中文分词
- Lucene与中文分词
- Lucene中文分词介绍
- Delphi基本类型--枚举 子界 集合 数组
- C语言的预编译
- The executable was signed with invalid entitlements
- iOS 获取流量
- linux shell (()) 双括号运算符使用
- lucene 4.3 中文分词代码演示
- 设置word打开文档时默认使用“文档结构图”视图
- VC++界面编程之--自定义进度条(CProgressBar)皮肤
- C++ 基类和派生类之间构造函数的调用
- ANDROID 系统网络连接和管理机制
- 内部排序之选择排序
- delete内存释放机制
- noframes
- SQL Server 实例Instance的概念