solr4.9之配置中文分词smartcn
来源:互联网 发布:广州软件开发公司 编辑:程序博客网 时间:2024/06/15 01:02
http://blog.csdn.net/u012027091/article/details/37931455
solr4.9之配置中文分词smartcn
分类: solr2014-07-18 16:04 574人阅读 评论(0) 收藏 举报
solr4.3默认的分词器是一元分词器,这个本来就是对英文进行分词的,英文大部分就是典型的根据空格进行分词,而中文如果按照这个规则,那么显然是要有很多的冗余词被分出来,一些没有用的虚词,数词,都会被分出来,影响效率不说,关键是分词效果不好,所以可以利用solr的同步发行包smartcn进行中文切词,smartcn的分词准确率不错,但就是不能自己定义新的词库,不过smartcn是跟solr同步的,所以不需要额外的下载,只需在solr的例子中拷贝进去即可,下面给出路径图和安装solr4.3的smartcn分词过程
无论安装那种分词器,大部分都有2个步骤,第一步是拷贝jar包到solr的lib中
这个弄好之后,就需要在schemal.xml文件中,注册分词器了
最后在引用一下字段类型就可以了
![](http://img.blog.csdn.net/20140718160034859?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdTAxMjAyNzA5MQ==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center)
无论安装那种分词器,大部分都有2个步骤,第一步是拷贝jar包到solr的lib中
- C:\桌面\solr-4.3.0\contrib\analysis-extras\lucene-libs
- F:\eclipse10tomcat\webapps\solr\WEB-INF\lib
- smartcn的同步发行包:lucene-analyzers-smartcn-4.3.0.jar
这个弄好之后,就需要在schemal.xml文件中,注册分词器了
- <fieldType name="text_smart" class="solr.TextField" positionIncrementGap="100">
- <analyzer type="index">
- <!-- 此处需要配置主要的分词类 -->
- <tokenizer class="solr.SmartChineseSentenceTokenizerFactory"/>
- <!--
- <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
- <filter class="solr.LowerCaseFilterFactory"/>
- -->
- <!-- in this example, we will only use synonyms at query time
- <filter class="solr.SynonymFilterFactory" synonyms="index_synonyms.txt" ignoreCase="true" expand="false"/>
- -->
- <filter class="solr.SmartChineseWordTokenFilterFactory"/>
- </analyzer>
- <analyzer type="query">
- <!-- 此处配置同上 -->
- <tokenizer class="solr.SmartChineseSentenceTokenizerFactory"/>
- <!--
- <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
- <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
- <filter class="solr.LowerCaseFilterFactory"/>
- -->
- <filter class="solr.SmartChineseWordTokenFilterFactory"/>
- </analyzer>
- </fieldType>
最后在引用一下字段类型就可以了
- <field name="sma" type="text_smart" indexed="true" stored="true" multiValued="true"/>
访问http://localhost:8080/solr/#/collection1点击分词分析即可查看分词效果
0 0
- solr4.9之配置中文分词smartcn
- solr4.9之配置中文分词smartcn
- Solr 配置中文分词smartcn
- Solr4.7 配置中文分词
- Solr-6.5.1配置中文分词器smartcn
- solr4.5配置中文分词器mmseg4j
- 配置solr4.10.0和中文分词IKAnalyzer
- solr4.5配置中文分词器mmseg4j
- solr4.5配置中文分词器mmseg4j
- solr4.7中文分词器(ik-analyzer)配置
- solr4.7中文分词器(ik-analyzer)配置
- solr4.7中文分词器(ik-analyzer)配置
- solr4.7中文分词器(ik-analyzer)配置
- solr4.7中文分词器(ik-analyzer)配置
- solr4.7中文分词器(ik-analyzer)配置
- Solr4.3.1配置MMSeg4j1.9.1中文分词器
- solr4.5部署到tomcat以及solr4.5配置中文分词器mmseg4j
- solr4.4.0+mmseg4j 中文分词
- 安卓中webview与javascript的交互
- confluence安装及破解
- 在PHP语言中使用JSON
- c inline函数
- 串口数据流的分析
- solr4.9之配置中文分词smartcn
- C单元测试框架——CMockery简介与示例
- java多线程系列----------- 终结任务(一)
- 书籍:wpf学习书籍介绍
- Java基础(极客)——16、Java开发调试技巧及Eclipse快捷键使用方法
- [LeetCode] Anagrams
- 摄像机指标
- poj 3041 Asteroids
- 第九周项目 2 职员有薪水了(2)