【es学习笔记】对语言进行处理

来源:互联网 发布:super java怎么理解 编辑:程序博客网 时间:2024/06/02 19:42
es内置了多种语言分词器,这些分词器大都扮演4个基本角色。
tokenize-->lowercase-->remove stopwords-->stem
使用英文分词器,可以使用到具体的域中,但是有时一个域中仅适用一个语言分词器并不能满足要求。
例如,I'm not happy about the foxes 使用english分词器的结果是:i'm happi about fox
问题是,使用英文分词器,此内容即匹配fox,同时匹配foxes;not在english分词器中是stopword,被remove,因此即使匹配也无法判断是否存在not,从这个例子可以看出使用english分词器提高了recall,但是precise却差多了。
可以这么解决,对于,例如是title域。1/title/I'm happy for this fox; 2/title/I'm not happy about my fox problem,加入,我如此索引
title:{type:string, "fields":{"english":{"type":"string","analyzer":"english"}}}
在查询时,使用most_field方式查询,那么query = "not happy foxes"

这样,english分词器提高了recall,同时辅助standard分词器,提高precise!

参考:Using Language Analyzers

PS:不算真正的原创吧,因为参考es的官方文档,但是又不是完全的直接翻译,还有自己的理解

0 0
原创粉丝点击