【es学习笔记】对语言进行处理

来源：互联网发布：super java怎么理解编辑：程序博客网时间：2024/06/02 19:42

es内置了多种语言分词器，这些分词器大都扮演4个基本角色。

tokenize-->lowercase-->remove stopwords-->stem

使用英文分词器，可以使用到具体的域中，但是有时一个域中仅适用一个语言分词器并不能满足要求。

例如，I'm not happy about the foxes 使用english分词器的结果是：i'm happi about fox

问题是，使用英文分词器，此内容即匹配fox，同时匹配foxes；not在english分词器中是stopword，被remove，因此即使匹配也无法判断是否存在not，从这个例子可以看出使用english分词器提高了recall，但是precise却差多了。

可以这么解决，对于，例如是title域。1/title/I'm happy for this fox; 2/title/I'm not happy about my fox problem，加入，我如此索引

title:{type:string, "fields":{"english":{"type":"string","analyzer":"english"}}}

在查询时，使用most_field方式查询，那么query = "not happy foxes"

这样，english分词器提高了recall，同时辅助standard分词器，提高precise!

参考：Using Language Analyzers

PS：不算真正的原创吧，因为参考es的官方文档，但是又不是完全的直接翻译，还有自己的理解

0 0