Solr4.10.3中整合中文分词mmseg4j-1.9.1

来源:互联网 发布:java redis视频教程 编辑:程序博客网 时间:2024/04/28 06:17

下载兼容Solr4.10.3的中文分词器mmseg4j-1.9.1

http://download.csdn.net/detail/hugofgh/8395743

解压,

提取其中的三个文件:mmseg4j-analysis-1.9.2-SNAPSHOT.jar, mmseg4j-core-1.9.1.jar,mmseg4j-solr-1.9.2-SNAPSHOT.jar。

放到目录:L:\service\tomcat8\webapps\solr\WEB-INF\lib 

修改配置文件schema.xml,添加下面的两段代码:

fieldType:

<pre name="code" class="html"><!-- mmseg4j--><fieldType name="text_mmseg4j_complex" class="solr.TextField" positionIncrementGap="100" >      <analyzer>          <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="dic"/>      </analyzer>  </fieldType>  <fieldType name="text_mmseg4j_maxword" class="solr.TextField" positionIncrementGap="100" >      <analyzer>          <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="dic"/>      </analyzer>  </fieldType>  <fieldType name="text_mmseg4j_simple" class="solr.TextField" positionIncrementGap="100" >      <analyzer>        <!--        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="n:/OpenSource/apache-solr-1.3.0/example/solr/my_dic"/>         -->        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="dic"/>         </analyzer>  </fieldType><!-- mmseg4j-->


与fieldType对应的field:

<pre name="code" class="html"><!-- mmseg4j --><field name="mmseg4j_complex_name" type="text_mmseg4j_complex" indexed="true" stored="true"/><field name="mmseg4j_maxword_name" type="text_mmseg4j_maxword" indexed="true" stored="true"/><field name="mmseg4j_simple_name" type="text_mmseg4j_simple" indexed="true" stored="true"/><!--mmseg4j -->

此时就算配置完成了,重启tomcat服务.即可

进入即可测试

http://localhost:8080/solr/#/collection1/analysis




0 0