nutch solr系列之（三）solr 4.8.1 支持中文分词

来源：互联网发布：淘宝买家怎么买运费险编辑：程序博客网时间：2024/04/23 17:36

1、将solr 4.8.1中solr-4.8.1\contrib\analysis-extras\lucene-libs下的lucene-analyzers-smartcn-4.8.1.jar包拷贝到tomcat的solr部署文件夹的lib目录（tomcat-8.5.9\webapps\solr\WEB-INF\lib）下

2、修改tomcat中solr的配置文件schema.xml（tomcat-8.5.9\solr\collection1\conf目录下）

2.1 在types节点中添加如下内容：

<fieldType name="text_smart" class="solr.TextField" positionIncrementGap="100">

<analyzer type="index">

<!-- 此处需要配置主要的分词类 -->

<tokenizer class="solr.SmartChineseSentenceTokenizerFactory"/>

<!--

<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />

<filter class="solr.LowerCaseFilterFactory"/>

-->

<!-- in this example, we will only use synonyms at query time

<filter class="solr.SynonymFilterFactory" synonyms="index_synonyms.txt" ignoreCase="true" expand="false"/>

-->

<filter class="solr.SmartChineseWordTokenFilterFactory"/>

</analyzer>

<analyzer type="query">

<!-- 此处配置同上 -->

<tokenizer class="solr.SmartChineseSentenceTokenizerFactory"/>

<!--

<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />

<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>

<filter class="solr.LowerCaseFilterFactory"/>

-->

<filter class="solr.SmartChineseWordTokenFilterFactory"/>

</analyzer>

</fieldType>

2.2 在fields节点中添加如下内容：

<field name="name_ik" type="text_smart" indexed="true" stored="true" multiValued="false" />

其中field的type的值就是引用上面fieldType 的name值。

3、访问solr进行验证

阅读全文

0 0