第二章:基于IK的智能分词、细粒度分词、同义词、停用词

来源:互联网 发布:地方台直播软件 编辑:程序博客网 时间:2024/04/30 04:02

1.  下载IKAnalyzer2012FF_u1_完整版,http://download.csdn.net/detail/insist211314/9263965

2.  将文件放入solr.war的WEB-INF/lib下

3.  将IKAnalyzer.cfg.xml、ext.dic、stopword.dic放到WEB-INF/classes目录下,注意:classes目录没有,需要手动创建

4.  配置同义词与停用词

<?xml version="1.0" encoding="UTF-8"?><!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">  <properties>  <comment>IK Analyzer 扩展配置</comment><!--用户可以在这里配置自己的扩展字典--> <entry key="ext_dict">ext.dic;</entry> <!--用户可以在这里配置自己的扩展停止词字典--><entry key="ext_stopwords">stopword.dic;</entry> </properties>

5.  配置schema.xml
<fieldType name="text_ik" class="solr.TextField" positionIncrementGap="100">     <analyzer type="index">         <tokenizer class="org.wltea.analyzer.lucene.IKAnalyzerSolrFactory"  isMaxWordLength="false"/>         <filter class="solr.LowerCaseFilterFactory"/>     </analyzer>     <analyzer type="query">         <tokenizer class="org.wltea.analyzer.lucene.IKAnalyzerSolrFactory"  isMaxWordLength="true"/>              <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>         <filter class="solr.LowerCaseFilterFactory"/>     </analyzer>  </fieldType>
      注意:isMaxWordLength为true表示进行智能分词,相反为细粒度分词

6.  测试,搜索关键词“一台笔记本”
ext.dic文件内容

一台笔记本

stopword.dic文件内容

synonyms.txt文件内容

笔记本 => 笔记本电脑 超薄笔记本

7.  使用solr admin进行测试,搜索关键词“一台笔记本”


IKT:使用IK的Tokenizer进行解析的结果

ST:使用StandardTokenizer解析的结果

LCF:使用LowercaseFilter解析的结果


参考资料:

http://blog.csdn.net/clj198606061111/article/details/21289897

http://onlyonetoone.iteye.com/blog/2155740


0 0
原创粉丝点击