solr4.7中文分词器(ik-analyzer)配置
来源:互联网 发布:java获取临时文件夹 编辑:程序博客网 时间:2024/05/17 02:11
感谢有奉献精神的人
转自:http://blog.csdn.net/clj198606061111/article/details/21289897
solr本身对中文分词的处理不是太好,所以中文应用很多时候都需要额外加一个中文分词器对中文进行分词处理,ik-analyzer就是其中一个不错的中文分词器。
一、版本信息
solr版本:4.7.0
需要ik-analyzer版本:IK Analyzer 2012FF_hf1
ik-analyzer下载地址:http://code.google.com/p/ik-analyzer/downloads/list
二、配置步骤
下载压缩解压后得到如下目录结构的文件夹:
我们把IKAnalyzer2012FF_u1.jar拷贝到solr服务的solr\WEB-INF\lib下面。
我们把IKAnalyzer.cfg.xml、stopword.dic拷贝到需要使用分词器的core的conf下面,和core的schema.xml文件一个目录。
修改core的schema.xml,在<types></types>配置项间加一段如下配置:
- <fieldType name="text_ik" class="solr.TextField">
- <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>
- </fieldType>
我们在这个core的schema.xml里面配置field类型的时候就可以使用text_ik了。
- <field name="name" type="text_ik" indexed="true" stored="true" multiValued="false" />
三、中文分词测试
- IKT
- text
- raw_bytes
- start
- end
- type
- position
- 中华人民共和国
- [e4 b8 ad e5 8d 8e e4 ba ba e6 b0 91 e5 85 b1 e5 92 8c e5 9b bd]
- 0
- 7
- CN_WORD
- 1
- 中华人民
- [e4 b8 ad e5 8d 8e e4 ba ba e6 b0 91]
- 0
- 4
- CN_WORD
- 2
- 中华
- [e4 b8 ad e5 8d 8e]
- 0
- 2
- CN_WORD
- 3
- 华人
- [e5 8d 8e e4 ba ba]
- 1
- 3
- CN_WORD
- 4
- 人民共和国
- [e4 ba ba e6 b0 91 e5 85 b1 e5 92 8c e5 9b bd]
- 2
- 7
- CN_WORD
- 5
- 人民
- [e4 ba ba e6 b0 91]
- 2
- 4
- CN_WORD
- 6
- 共和国
- [e5 85 b1 e5 92 8c e5 9b bd]
- 4
- 7
- CN_WORD
- 7
- 共和
- [e5 85 b1 e5 92 8c]
- 4
- 6
- CN_WORD
- 8
- 国
- [e5 9b bd]
- 6
- 7
- CN_CHAR
- 9
版权声明:本文为博主原创文章,未经博主允许不得转载。
0 0
- solr4.7中文分词器(ik-analyzer)配置
- solr4.7中文分词器(ik-analyzer)配置
- solr4.7中文分词器(ik-analyzer)配置
- solr4.7中文分词器(ik-analyzer)配置
- solr4.7中文分词器(ik-analyzer)配置
- solr4.7中文分词器(ik-analyzer)配置
- solr学习(4.1)-solr4.7中文分词器(ik-analyzer)配置
- Solr4.10.2的IK Analyzer分词器配置
- Solr4.10.2的IK Analyzer分词器配置
- solr配置中文分词器IK Analyzer
- Slor配置中文分词器IK Analyzer
- solr配置中文IK Analyzer分词器
- IK Analyzer中文分词器
- Solr配置中文分词器IK Analyzer详解
- solr中MMSEG4j、IK Analyzer中文分词器安装配置
- Solr配置中文分词器IK Analyzer详解
- 爬坑 solr-4.10 配置中文分词器ik-analyzer
- solr-4.6配置中文分词器ik-analyzer
- RedHat下更新gcc编译器
- delphi 截图简单的实现
- PL/SQL8.0 注册码
- hdu2191 悼念512汶川大地震遇难同胞——珍惜现在,感恩生活
- 使用AudioTrack进行音频播放
- solr4.7中文分词器(ik-analyzer)配置
- spring源码初步学习-自己实现的ioc容器结构
- 04 基本元素 进制转换
- Xcode的控制台调试命令
- Android音频系统之AudioTrack(一)
- 漫谈 iOS Crash 收集框架
- 介绍GRE填空技巧之词项释义法
- 透明状态栏
- Objective-C程序设计第10章---More on Variable and Data Types