SolrCloud-5.5.1配置中文分词ansj-3.4.6
来源:互联网 发布:女神联盟2英雄进阶数据 编辑:程序博客网 时间:2024/05/27 02:32
今天分享一下这两天倒持的给solr5.5.1配置中文分词的一些事项,本人刚刚开始研究SolrCloud,比照网上的教程与自己亲身试验的总结一下,通过这两天的折腾觉得找对匹配的版本是顶顶重要的一件事。
首先按照网上的教程来:
第一步,下载ansj的最新源码以及jar包,最新的是ansj-5.0.4-all-in-one.jar
第二步,plugin下重新编译ansj_lucene5_plugin插件,这个地方网上大多编译的是ansj_lucene4_plugin,本人windows上试了下,没有编译成功,然后solr基于lucene,所以觉得两者版本应该对应的,又选择了ansj_lucene5_plugin进行编译打包,然后还是没成功。
果断放弃了最新版,根据网上资料,看到ansj-3.7.5有成功的,于是又下载了ansj-3.7.5这个版本的分词包与源码,linux系统下编译了ansj_lucene5_plugin成功。
具体步骤:
1. 下载ansj的jar包,选择ansj_seg-3.4.5-all-in-one.jar
2. github下载.zip的源码,解压,编译ansj_lucene5_plug(对应solr5)
进入解压目录:ansj_seg-master\plug\ansj_lucene5_plug,执行指令mvn clean install -DskipTests=true ,生成jar包ansj_lucene5_plug-3.4.5.jar
3. 新建一个工程,重写TokenizerFactory,网上有现成的,最新版的ansj-5.0.4-all-in-one.jar的plugin文件下,有关于solr4的一个插件,里面也有写好的TokenizerFactory,这个时候需要倒导入刚刚生成的jar包ansj_lucene5_plug-3.4.5.jar,除此还需要solrJ的一些jar,然后导出jar—TokenizerFactor.jar
将分词插件及依赖的jar包放到/solr5.5.1/server/solr-webapp/webapp/WEB-INF/lib目录下:
ansj_lucene5_plug-3.7.5.jar
ansj_seg-3.4.5-all-in-one.jar
ansj_lucene5_plug-3.4.5.jar
更改配置文件
在schema中配置扩展分词的fieldType:
拷贝ansj分词相关文件到server/resource下面:主要是library.properties,当然,library与train_file本人也拷贝进去了,也有将这些拷贝到WEB-INF/classes目录下的,暂时没研究之间的影响。
经过上述的配置,重启了solr,然后测试了下,确实可以分词了。
- SolrCloud-5.5.1配置中文分词ansj-3.4.6
- solrcloud配置中文分词
- Ansj中文分词说明
- ANSJ中文分词使用方法
- Ansj中文分词说明
- solrcloud配置中文分词器ik
- Java中文分词器Ansj
- Ansj中文分词的使用
- ansj中文分词分词过程浅析
- 基于 Ansj 的 elasticsearch 2.3.1 中文分词插件
- ansj分词器的配置
- 开源 Java 中文分词器 Ansj
- [023]中文分词——ansj
- Java中文分词器Ansj的使用
- Ansj中文分词Java开发小记
- SPARK+ANSJ 中文分词基本操作
- elasticsearch2.3.1集成ansj中文分词
- solr6使用ansj做中文分词
- WINDOWS环境下安装与配置SQL DEVELOPER
- “Found interface com.mysql.jdbc.Connection, but class was expected ”
- Dom对象和JQuery对象
- 电商平台中的架构实践
- 数据库SQL优化大总结之 百万级数据库优化方案
- SolrCloud-5.5.1配置中文分词ansj-3.4.6
- wordpress的avada 5.0主题添加百度分享盒的方法
- 图数据挖掘--六度分隔
- 医学论文撰写的内容
- Fragment
- 包含键值对的Map属性的初始化方式
- 浅谈TCP连接的三次握手与四次挥手
- JSP九大内置对象
- Web开发性能优化---UI界面篇