第二章:基于IK的智能分词、细粒度分词、同义词、停用词
来源:互联网 发布:地方台直播软件 编辑:程序博客网 时间:2024/04/30 04:02
1. 下载IKAnalyzer2012FF_u1_完整版,http://download.csdn.net/detail/insist211314/9263965
2. 将文件放入solr.war的WEB-INF/lib下
3. 将IKAnalyzer.cfg.xml、ext.dic、stopword.dic放到WEB-INF/classes目录下,注意:classes目录没有,需要手动创建
4. 配置同义词与停用词
<?xml version="1.0" encoding="UTF-8"?><!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd"> <properties> <comment>IK Analyzer 扩展配置</comment><!--用户可以在这里配置自己的扩展字典--> <entry key="ext_dict">ext.dic;</entry> <!--用户可以在这里配置自己的扩展停止词字典--><entry key="ext_stopwords">stopword.dic;</entry> </properties>
<fieldType name="text_ik" class="solr.TextField" positionIncrementGap="100"> <analyzer type="index"> <tokenizer class="org.wltea.analyzer.lucene.IKAnalyzerSolrFactory" isMaxWordLength="false"/> <filter class="solr.LowerCaseFilterFactory"/> </analyzer> <analyzer type="query"> <tokenizer class="org.wltea.analyzer.lucene.IKAnalyzerSolrFactory" isMaxWordLength="true"/> <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/> <filter class="solr.LowerCaseFilterFactory"/> </analyzer> </fieldType>注意:isMaxWordLength为true表示进行智能分词,相反为细粒度分词
6. 测试,搜索关键词“一台笔记本”
ext.dic文件内容
一台笔记本
stopword.dic文件内容
的
synonyms.txt文件内容
笔记本 => 笔记本电脑 超薄笔记本
7. 使用solr admin进行测试,搜索关键词“一台笔记本”
ST:使用StandardTokenizer解析的结果
LCF:使用LowercaseFilter解析的结果
参考资料:
http://blog.csdn.net/clj198606061111/article/details/21289897
http://onlyonetoone.iteye.com/blog/2155740
0 0
- 第二章:基于IK的智能分词、细粒度分词、同义词、停用词
- Ik分词添加停用词以及扩展词步骤
- IK分词源码讲解(四)-停用词处理
- 三、lucene3.5的分词语法[停用词扩展、同义词搜索等]
- 中文分词与停用词的作用
- 中文分词与停用词的作用
- 中文分词与停用词的作用
- Lucene 3.6.2入门:自定义停用词分词器和同义词分词器
- IK分词源码分析连载(四)--停用词+未切分词处理
- 【Lucene3.6.2入门系列】第05节_自定义停用词分词器和同义词分词器
- 【Lucene3.6.2入门系列】第05节_自定义停用词分词器和同义词分词器
- IKAnalyzer使用停用词词典进行分词
- IKAnalyzer中文分词去停用词问题解决
- python 去除停用词 结巴分词
- python27使用jieba分词,去除停用词
- jieba分词和去停用词
- 分词器,使用中文分词器,扩展词库,停用词
- 使用FudanNLP分词工具分词并移除停用词
- Android之handler介绍
- Android——获取和输出XML数据文件
- React with Webpack - 3: 内联image、font
- First job interview 总结
- hdoj练习题 异或的应用
- 第二章:基于IK的智能分词、细粒度分词、同义词、停用词
- Unity中,如何从代码中生成UI
- 人脸关键点检测中的CLM/RL-Mean-shift/CLNF
- nginx问题汇总
- Xcode 6 LaunchImage 载入界面标准大小
- android:configuration 处理屏幕旋转和语言切换等问题
- 我的第一篇
- WebService使用问题记录
- mongodb