nutch solr系列之(三)solr 4.8.1 支持中文分词

来源:互联网 发布:淘宝买家怎么买运费险 编辑:程序博客网 时间:2024/04/23 17:36
1、将solr 4.8.1中solr-4.8.1\contrib\analysis-extras\lucene-libs下的lucene-analyzers-smartcn-4.8.1.jar包拷贝到tomcat的solr部署文件夹的lib目录(tomcat-8.5.9\webapps\solr\WEB-INF\lib)下

2、修改tomcat中solr的配置文件schema.xml(tomcat-8.5.9\solr\collection1\conf目录下)
2.1 在types节点中添加如下内容:
<fieldType name="text_smart" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">
<!-- 此处需要配置主要的分词类 -->
<tokenizer class="solr.SmartChineseSentenceTokenizerFactory"/>
<!--
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
<filter class="solr.LowerCaseFilterFactory"/>
-->
<!-- in this example, we will only use synonyms at query time
<filter class="solr.SynonymFilterFactory" synonyms="index_synonyms.txt" ignoreCase="true" expand="false"/>
-->
<filter class="solr.SmartChineseWordTokenFilterFactory"/>
</analyzer>
<analyzer type="query">
<!-- 此处配置同上 -->
<tokenizer class="solr.SmartChineseSentenceTokenizerFactory"/>
<!--
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
<filter class="solr.LowerCaseFilterFactory"/>
-->
<filter class="solr.SmartChineseWordTokenFilterFactory"/>
</analyzer>
</fieldType>
2.2 在fields节点中添加如下内容:
<field name="name_ik" type="text_smart" indexed="true" stored="true" multiValued="false" />
其中field的type的值就是引用上面fieldType 的name值。

3、访问solr进行验证
solr分词图


原创粉丝点击