solr学习笔记-增加mmesg4J中文分词
来源:互联网 发布:关于加强网络信息安全 编辑:程序博客网 时间:2024/06/01 07:30
solr版本6.1、centos6.7、mmesg4j版本2.30
solr安装目录:/usr/local/solr-6.1.0
1、下载mmesg4j包:
地址:https://github.com/chenlb/mmseg4j-solr
2、解压/复制mmseg4j-core-1.10.0.jar、mmseg4j-solr-2.3.0.jar 到/usr/local/solr-6.1.0/dist目录下
3、编辑solrconfig.xml文件增加如下代码并保存
<lib dir="${solr.install.dir:../../../..}/dist/" regex="mmseg4j-core-1.10.0.jar" /> <lib dir="${solr.install.dir:../../../..}/dist/" regex="mmseg4j-solr-2.3.0.jar" />
4、编辑managed-schema文件底部增加如下代码并保存
<fieldtype name="mmseg4jComplex" class="solr.TextField" positionIncrementGap="100"> <analyzer> <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="/usr/local/solr-6.1.0/dict" /> </analyzer> </fieldtype> <fieldtype name="mmseg4jMaxWord" class="solr.TextField" positionIncrementGap="100"> <analyzer> <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="/usr/local/solr-6.1.0/dict" /> </analyzer> </fieldtype> <fieldtype name="mmseg4jSimple" class="solr.TextField" positionIncrementGap="100"> <analyzer> <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="/usr/local/solr-6.1.0/dict" /> </analyzer> </fieldtype>
5、修改相应索引字段为以上fieldtype,例如
<field name="goods_name" type="<span style="color:#ff0000;">mmseg4jMaxWord</span>" indexed="true" stored="true" required="true" multiValued="false" />
6、重启服务
/usr/local/solr-6.1.0/bin/solr restart
7、查看分词效果
0 0
- solr学习笔记-增加mmesg4J中文分词
- Solr学习(二)-- 配置中文分词
- Solr笔记三之Solr加入中文分词
- Solr学习(二)为Solr加入中文分词器
- 搜索引擎之阿堂Solr学习笔记系列2(基础篇:中文分词)
- solr中文分词
- solr+mmseg4j 中文分词
- solr中文分词(mmseg4j)
- Solr 中文分词器
- solr+mmseg4j 中文分词
- solr中文分词
- solr+mmseg4j 中文分词
- Solr 使用中文分词
- solr中文分词(mmseg4j)
- solr配置中文分词
- Solr之中文分词
- solr-中文分词配置
- solr中文分词
- 基于Qt Gui的Led控制显示程序
- Nginx如何配置可以让.html后缀的文件当php动态文件执行
- android硬编码h264——MediaCodec
- Android ContentProvider和Uri详解
- 每个程序员都应该收藏的算法复杂度速查表
- solr学习笔记-增加mmesg4J中文分词
- CC2640之可以被多个主机同时连接的从设备实例
- 算法背后真正需要培养什么?
- hdoj5773The All-purpose Zero【LIS】
- Spring AOP 使用注解的方式实现用户日志的两种方法
- 鬼吹灯
- JavaMail发送邮件
- REST设计规范
- vs2015使用小技巧-- 快捷键:导入命名空间