在Solr4.10配置IKAnalyzer 同义词、扩展词库、停顿词详解

来源:互联网 发布:开局只有5个农民 知乎 编辑:程序博客网 时间:2024/06/05 03:12

在配置IKAnalyzer 同义词时,遇到一些麻烦,配置了半天终于成功,在此做个记录,方便以后参考

其实配置也简单,主要是jar包,IKAnalyzer貌似已经没人更新了……本人也是从别人那下载的才可用,我也将jar包上传至本人资源,

下载路径为:http://download.csdn.net/download/tjcyjd/8430613

在solr的配置文件schema.xml中添加:

<!--IKAnalyzer-->   <fieldType name="text_ik" class="solr.TextField" positionIncrementGap="100">       <analyzer type="index">         <tokenizer class="org.wltea.analyzer.lucene.IKAnalyzerSolrFactory"  isMaxWordLength="false"/>         <filter class="solr.LowerCaseFilterFactory"/>       </analyzer>       <analyzer type="query">         <tokenizer class="org.wltea.analyzer.lucene.IKAnalyzerSolrFactory"  isMaxWordLength="true"/>              <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>         <filter class="solr.LowerCaseFilterFactory"/>       </analyzer>     </fieldType>

其中的org.wltea.analyzer.lucene.IKAnalyzerSolrFactory类是自己扩展的,synonyms.txt在solr_home/core/conf文件下。


配置扩展词跟扩展停顿词配置入下:


IKAnalyzer.cfg.xml内容如下:

<?xml version="1.0" encoding="UTF-8"?><!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">  <properties>    <comment>IK Analyzer 扩展配置</comment>  <!--用户可以在这里配置自己的扩展字典  <entry key="ext_dict">ext.dic;</entry>-->   <entry key="ext_dict">mydict.dic;</entry> <!--用户可以在这里配置自己的扩展停止词字典-->  <entry key="ext_stopwords">stopword.dic;</entry>  </properties>

到此配置完成,如现在需要配置“beijing”和"北京"这两个同义词,只要在synonyms.txt文件中添加:  beijing,北京 重启solr服务即可,如果不生效,把文件保存为UTF-8+BOM。


jar包下载地址:http://download.csdn.net/download/tjcyjd/8430613

2 2