solr4.4.0 集成 carrot2 支持中文和添加自己的中文分词器的方法。
来源:互联网 发布:ios手机编程就业 编辑:程序博客网 时间:2024/05/18 00:10
默认 carrot2中是支持中文的,但是需要一个参数进行指定
carrot.lang=CHINESE_SIMPLIFIED
carrot2支持的语言可以参考http://doc.carrot2.org/#section.attribute.lingo.MultilingualClustering.defaultLanguage
但是默认,carrot2使用的分词类是 org.apache.lucene.analysis.cn.smart.SentenceTokenizer,这是看 carrot源代码找到的源码如下(在org.apache.solr.handler.clustering.carrot2.LuceneCarrot2TokenizerFactory类中)
private ChineseTokenizer() throws Exception {
this.tempCharSequence = new MutableCharArray(new char[0]);
// As Smart Chinese is not available during compile time,
// we need to resort to reflection.
final Class<?> tokenizerClass = ReflectionUtils.classForName(
"org.apache.lucene.analysis.cn.smart.SentenceTokenizer", false);
this.sentenceTokenizer = (Tokenizer) tokenizerClass.getConstructor(
Reader.class).newInstance((Reader) null);
this.tokenFilterClass = ReflectionUtils.classForName(
"org.apache.lucene.analysis.cn.smart.WordTokenFilter", false);
}
如果,没有这个类,carrot2默认就会使用一个 ExtendedWhitespaceTokenizer 使用空格进行切词,所以如果要使用carrot2自己的中文切词,需要加入 lucene-analyzers-smartcn-4.4.0.jar
当然也可以使用自己的分词包,比如IK等等,把上述源码替换成相应的类即可。
- solr4.4.0 集成 carrot2 支持中文和添加自己的中文分词器的方法。
- solr4.10.2及中文分词器的使用
- solr4.10.2及中文分词器的使用
- solr4.4.0+mmseg4j 中文分词
- 配置solr4.10.0和中文分词IKAnalyzer
- solr4.5单机版+中文分词的部署
- solr4.5单机版+中文分词的部署
- je-analysis-1.4.0中文分词添加自己的词库
- solr4.5配置中文分词器mmseg4j
- Solr4.2安装IK中文分词器
- solr4.5配置中文分词器mmseg4j
- solr4.5配置中文分词器mmseg4j
- Solr4.4部署在Tomcat7中并且添加中文分词
- Solr4.7 配置中文分词
- solr4.x+tomcat+中文分词
- 中文分词器分词效果的评测方法
- 中文分词器分词效果的评测方法
- 中文分词器分词效果的评测方法
- MFC AfxBeginThread
- 手机应用管理器
- Java网络编程精解笔记2:Socket详解
- linux大页面使用与实现简介
- Lua中调用C/C++函数 (转)
- solr4.4.0 集成 carrot2 支持中文和添加自己的中文分词器的方法。
- SQL Server高级内容:子查询和表链接
- android 开发时 服务器端经常得到乱码
- Mysql实现TOP n
- PHP主从分离分布式处理
- Asp.net_使用FileUpload控件上传文件通用方法分享
- ip-xfrm - transform configuration
- div可以输入内容,屏蔽浏览器自动的input样式
- java中判断socket服务器端是否断开连接