solr学习之-配置中文分词组件mmseg4j
来源:互联网 发布:centos grub引导修复 编辑:程序博客网 时间:2024/05/18 08:43
1、首先安装并能够运行solr服务,如果没有,请参考solr学习之-solr安装。
2、solr会默认一些中文分词器,但对分词支持的不好,比如输入:我们在北京清华大学附近工作,分出来的都是单个的字(如图),所以我们需要一个专业组件进行分词处理。
现在的分词组件主要有mmseg4j、IkAnalyzer,都比较好用,我们这里选用mmseg4j组件,版本mmseg4j-core-1.9.1,这个版本是一个稳定版本,下载地址:中文分词器mmseg4j
3、lib包配置
解压文件,提取其中的三个文件:mmseg4j-analysis-1.9.1.jar, mmseg4j-core-1.9.1.jar,mmseg4j-solr-1.9.1.jar。放到目录:D:\service\apache-tomcat-7.0.68\webapps\solr\WEB-INF\lib中(如图)。注意:D:\service\apache-tomcat-7.0.68并不是固定的,根据自己的环境配置。
4、对配置文件的修改
修改配置文件D:\service\solr\solrHome\collection1\conf 下的schema.xml,注意:D:\service\solr\solrHome\collection1并不是固定的,根据自己实际的配置环境。添加下面的两段代码:
1)fieldType:
<!-- mmseg4j--><fieldType name="text_mmseg4j_complex" class="solr.TextField" positionIncrementGap="100" > <analyzer> <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="dic"/> </analyzer> </fieldType> <fieldType name="text_mmseg4j_maxword" class="solr.TextField" positionIncrementGap="100" > <analyzer> <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="dic"/> </analyzer> </fieldType> <fieldType name="text_mmseg4j_simple" class="solr.TextField" positionIncrementGap="100" > <analyzer> <!-- <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="n:/OpenSource/apache-solr-1.3.0/example/solr/my_dic"/> --><tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="dic"/> </analyzer> </fieldType><!-- mmseg4j-->
2)与fieldType对应的field:
<!-- mmseg4j --><field name="mmseg4j_complex_name" type="text_mmseg4j_complex" indexed="true" stored="true"/><field name="mmseg4j_maxword_name" type="text_mmseg4j_maxword" indexed="true" stored="true"/><field name="mmseg4j_simple_name" type="text_mmseg4j_simple" indexed="true" stored="true"/><!--mmseg4j -->
5、完成校验
配置完成后重新启动tomcat服务。如果配置成功,则在Analyse Fieldname / FieldType下面多了三个选项mmseg4j_complex_name、mmseg4j_maxword_name、mmseg4j_simple_name。如图,说明配置成功。
再看一下mmseg4j的分词效果。
阅读全文
0 0
- solr学习之-配置中文分词组件mmseg4j
- solr下配置中文分词mmseg4j
- Solr配置中文分词器mmseg4j详解
- solr中文分词mmseg4j详细配置
- Solr配置中文分词器mmseg4j详解
- 三、为solr配置mmseg4j中文分词
- solr+mmseg4j 中文分词
- solr中文分词(mmseg4j)
- solr+mmseg4j 中文分词
- solr+mmseg4j 中文分词
- solr中文分词(mmseg4j)
- Solr分词mmseg4j配置
- solr中文分词(mmseg4j) 编辑
- Solr配置中文分词器mmseg4j详解-linux版
- solr中MMSEG4j、IK Analyzer中文分词器安装配置
- [Nutch]Solr配置自定义的中文分词器mmseg4j
- Solr中文分词器配置讲解 (IKAnalyzer和mmseg4j)
- solr中集成中文分词 mmseg4j
- C++工程代码打包的dll在C#工程上使用注意点!变量对应关系
- TED TOP-LEVEL EXCEPTION: java.lang.IllegalArgumentException: already added R
- TCP/IP(三):IP协议相关技术
- EventBus Q&A
- js技巧收集
- solr学习之-配置中文分词组件mmseg4j
- C++后台开发之makefile撰写
- redis结合springMVC配置和使用一
- TCP的三次握手和四次挥手
- AfxEnableControlCon
- springMVC 知识点整理PART 1(基本概念)
- 软编码Flv 到Mp4 容器(三) flv metadata tag解析
- 守形数(解题报告)
- java调用摄像头拍照,使用webcam-capture替换jmf调用摄像头拍照