SolrCloud-5.5.1配置中文分词ansj-3.4.6

来源:互联网 发布:女神联盟2英雄进阶数据 编辑:程序博客网 时间:2024/05/27 02:32

今天分享一下这两天倒持的给solr5.5.1配置中文分词的一些事项,本人刚刚开始研究SolrCloud,比照网上的教程与自己亲身试验的总结一下,通过这两天的折腾觉得找对匹配的版本是顶顶重要的一件事。
首先按照网上的教程来:
第一步,下载ansj的最新源码以及jar包,最新的是ansj-5.0.4-all-in-one.jar
第二步,plugin下重新编译ansj_lucene5_plugin插件,这个地方网上大多编译的是ansj_lucene4_plugin,本人windows上试了下,没有编译成功,然后solr基于lucene,所以觉得两者版本应该对应的,又选择了ansj_lucene5_plugin进行编译打包,然后还是没成功。
果断放弃了最新版,根据网上资料,看到ansj-3.7.5有成功的,于是又下载了ansj-3.7.5这个版本的分词包与源码,linux系统下编译了ansj_lucene5_plugin成功。
具体步骤:
1. 下载ansj的jar包,选择ansj_seg-3.4.5-all-in-one.jar
2. github下载.zip的源码,解压,编译ansj_lucene5_plug(对应solr5)
进入解压目录:ansj_seg-master\plug\ansj_lucene5_plug,执行指令mvn clean install -DskipTests=true ,生成jar包ansj_lucene5_plug-3.4.5.jar
3. 新建一个工程,重写TokenizerFactory,网上有现成的,最新版的ansj-5.0.4-all-in-one.jar的plugin文件下,有关于solr4的一个插件,里面也有写好的TokenizerFactory,这个时候需要倒导入刚刚生成的jar包ansj_lucene5_plug-3.4.5.jar,除此还需要solrJ的一些jar,然后导出jar—TokenizerFactor.jar
将分词插件及依赖的jar包放到/solr5.5.1/server/solr-webapp/webapp/WEB-INF/lib目录下:
ansj_lucene5_plug-3.7.5.jar
ansj_seg-3.4.5-all-in-one.jar
ansj_lucene5_plug-3.4.5.jar

  1. 更改配置文件

    在schema中配置扩展分词的fieldType:







  2. 拷贝ansj分词相关文件到server/resource下面:主要是library.properties,当然,library与train_file本人也拷贝进去了,也有将这些拷贝到WEB-INF/classes目录下的,暂时没研究之间的影响。

经过上述的配置,重启了solr,然后测试了下,确实可以分词了。

0 0
原创粉丝点击