搜索引擎solr系列---solr分词配置
来源:互联网 发布:淘宝话费充值店利润 编辑:程序博客网 时间:2024/06/14 05:02
分词我理解的是,输入的一句话,按照它自己定义的规则分为常用词语。
首先,Solr有自己基本的类型,string、int、date、long等等。
对于string类型,比如在你的core/conf/manage-schema文件中,配置一个字段类型为string类型,如果查询符合“我是中国人”的数据,它就认为“我是中国人”是一个词语。
但是如果你将该字段设置成了分词,即配置成了text_ik类型,就可能匹配“我”、“中国人”、“中国”、“中”、“人”带有这些字的该字段数据都可能被查询到。这就是分词带来的结果。具体要按照各自的业务来配置是否分词,分词对于大文本字段设置是合理的,但是对于小字段,设置分词是没必要的,甚至有相反的结果。比如你的某一个叫姓名的字段设置了分词,还不如设置string,查询时模糊匹配效果最好,(模糊匹配就是查询条件两边加上*),当然也要看自己业务需求是什么。
Solr分词的配置如下:
1.首先下载一个分词的jar包ik分词5.5jar包下载地址
2.将该分词jar包放到你的solr运行tomcat中的webapps/solr/WEB-INF/lib文件夹中,例如我的是D:\Tomcat9Solr\webapps\solr\WEB-INF\lib。
3.然后,在你的solrHome下的某个core/conf文件夹中,找到manage-schema文件,在改文件中的最下边添加配置如下内容:
<fieldType name="text_ik" class="solr.TextField"> <analyzer type="index" useSmart="false" class="org.wltea.analyzer.lucene.IKAnalyzer" /> <analyzer type="query" useSmart="true" class="org.wltea.analyzer.lucene.IKAnalyzer" /></fieldType>
4.然后还是在这个manage-schema文件中,找到你想配置分词的字段,将其type改为text_ik类型:
这里以dkdz为例,设置之前,在solr客户端查看是如下结果:
不好意思,我图贴错了,下边的3处应该是dkdz,不是dkbm!!
配置分词如下:
配置之后,在solr客户端的core admin中,reload该core,再次查看,变成如下页面:
如果变成了上边这种结果,就说明分词成功了。对于分词后的字段,如果在查询结果上有歧义,最好是来到solr客户端的上边位置,看下你的条件是不是因为分词,给分成了不是你想要的那种结果。
下一篇写,分词添加自定义扩展词库
阅读全文
1 0
- 搜索引擎solr系列---solr分词配置
- solr配置中文分词
- solr-中文分词配置
- solr 配置中文分词
- Solr分词mmseg4j配置
- 【solr】Solr中文分词配置(IKAnalyzer)
- Solr搜索引擎 --- windows 下配置solr
- Solr搜索引擎 --- windows 下配置solr
- Solr搜索引擎 --- windows 下配置solr
- (搜索引擎之solr) 给solr添加中文分词器
- 搜索引擎solr系列---安装步骤
- Solr搜索引擎——中文分词器
- Solr搜索引擎(4)中文分词器
- Solr中文分词配置(IKAnalyzer)
- solr配置中文分词器
- Solr 配置中文分词smartcn
- solr配置ik中文分词
- solr 中文分词器配置
- Wechall Wireup(一)
- 数据结构线性表的顺序实现1
- Vue2.0 过滤器 认识
- 进程间通信-管道(有名管道和无名管道)
- [SpringMVC]自定义注解实现控制器访问次数限制
- 搜索引擎solr系列---solr分词配置
- 洛谷P1250 种树(差分约束)
- 125. Valid Palindrome
- IIC总线从零梳理(结合STM32平台)
- 陈越姥姥 数据结构 线性表 实现
- Spring框架 一
- a标签download属性
- 预览input上传的图片
- HashMap的简单实现