elasticsearch 1.1.0 mmseg 英文数字分词
来源:互联网 发布:白莲花奖 知乎 编辑:程序博客网 时间:2024/03/29 19:45
elasticsearch 1.1.0 mmseg 插件的版本是1.2.2 版本。该版本没有解决英文数字分词问题。
比如 user123。分词后 user123
解决1:
mmseg插件升级 elasticsearch-analysis-mmseg-1.4.0。
https://github.com/medcl/elasticsearch-analysis-mmseg/commit/61b5e8199425c845a3060fe39f40e59868dd364b
index: analysis: tokenizer: mmseg_maxword: type: mmseg seg_type: max_word mmseg_complex: type: mmseg seg_type: complex analyzer: mmseg_maxword: type: custom filter: - lowercase - cut_letter_digit tokenizer: mmseg_maxword mmseg: type: custom filter: - lowercase - cut_letter_digit tokenizer: mmseg_maxword mmseg_complex: type: custom filter: - lowercase tokenizer: mmseg_complex#index.analysis.analyzer.default.type : "org.elasticsearch.index.analysis.MMsegAnalyzerProvider"#index.analysis.analyzer.default.type : "ik"index.analysis.analyzer.default.type : "mmseg"
解决2:
修改1.2.2 版本jar包中的MMSegAnalyzer,然后替换class
package com.chenlb.mmseg4j.analysis;import java.io.File;import java.io.Reader;import org.apache.lucene.analysis.Analyzer;import org.apache.lucene.analysis.Tokenizer;import org.apache.lucene.analysis.Analyzer.TokenStreamComponents;import com.chenlb.mmseg4j.Dictionary;import com.chenlb.mmseg4j.MaxWordSeg;import com.chenlb.mmseg4j.Seg;/** * 榛樿浣跨敤 max-word * * @see {@link SimpleAnalyzer}, {@link ComplexAnalyzer}, {@link MaxWordAnalyzer} * * @author chenlb */public class MMSegAnalyzer extends Analyzer {protected Dictionary dic;/** * @see Dictionary#getInstance() */public MMSegAnalyzer() {dic = Dictionary.getInstance();}/** * @param path 璇嶅簱璺緞 * @see Dictionary#getInstance(String) */public MMSegAnalyzer(String path) {dic = Dictionary.getInstance(path);}/** * @param path 璇嶅簱鐩綍 * @see Dictionary#getInstance(File) */public MMSegAnalyzer(File path) {dic = Dictionary.getInstance(path);}public MMSegAnalyzer(Dictionary dic) {super();this.dic = dic;}protected Seg newSeg() {return new MaxWordSeg(dic);}public Dictionary getDict() {return dic;}/*@Overrideprotected TokenStreamComponents createComponents(String fieldName, Reader reader) {return new TokenStreamComponents(new MMSegTokenizer(newSeg(), reader));}*/@Overrideprotected TokenStreamComponents createComponents(String fieldName,Reader reader) {Tokenizer t = new MMSegTokenizer(newSeg(), reader);return new TokenStreamComponents(t, new CutLetterDigitFilter(t));}}
0 0
- elasticsearch 1.1.0 mmseg 英文数字分词
- elasticsearch中文分词(mmseg)——手动添加词典
- mmseg中文分词软件包
- MMSeg分词算法简述
- 关于MMSEG分词算法
- mmseg 分词算法
- 关于MMSEG分词算法
- MMSEG 中文分词算法
- 关于MMSEG分词算法
- MMSeg中文分词算法
- python MMSEG 分词 实现
- 关于MMSEG分词算法
- MMSEG中文分词算法
- MMSEG 分词算法
- 浅谈MMSEG分词算法
- MMSeg中文分词算法
- 浅谈MMSEG分词算法
- MMSeg中文分词算法
- size_t类型总结
- 如何用较低版本的tableau desktop打开较高版本保存下来的文件?
- Elasticsearch基础教程 rest api
- Elasticsearch中使用reiver-jdbc导入数据
- SetWindowLong 用法总结
- elasticsearch 1.1.0 mmseg 英文数字分词
- ElasticSearch的ik分词插件开发
- 【资源汇集.转】来自西弗吉利亚大学li xin整理的CV代码合集
- jQuery操作HTM元素的常见事件
- 限制玻尔兹曼机导论Introduction to Restricted Boltzmann Machines
- elasticsearch文档-analysis
- 为什么byte的取值范围是-128到127
- elasticsearch 分词器配置注意事项
- CSDN的博客积分计算规则及博客排名规则