solr 自定义QueryParser 用户查询解析方案
来源:互联网 发布:主机屋域名绑定 编辑:程序博客网 时间:2024/05/21 17:30
背景
一个完整的搜索流程,query其实是最关键的角色,它甚至比人的标签等信息更加关键,这也是PPC这种搜索广告赚钱的基本保障。
我们作为搜索服务提供商,能够怎么应对这些query,并且根据用户输入的query构造出不同的lucene布尔查询,这是非常关键的一个问题。拿之前做过的地图检索为例,用户输入:上海市浦东新区罗山路28号,我们的底层schema存有省,市,县,区,街道等信息,那么我们如果把用户query进行分词可以得到:“上海市”,“浦东新区”,“罗山路”,“28号”。(至于如何能得到这些term而不是使用ngram这种分词,可以参考一下现有的一些分词方案。不过对于电商网站来讲,扩词典就足够了)
得到上述的几个term(也称token)之后,可以看到,如果能去省、市信息中搜索“上海市”,去区信息中搜索“浦东新区”,去街道信息中搜索“罗山路”和“28号”甚至是“罗山路28号”,那么只要索引里有相应的数据,这次搜索就是“完美”的。
方案
最近就使用自定义的queryParserPlugin在解决相应的问题:
首先需要解决tokenize和tag,即首先需要有比较好的分词和标注方案,即你如何能够得到“上海市”这个term并且给这个term加个“省”的标签。(还是那句话,query和自然语言的差距太大了,扩词典是最便捷的解决方案,之前试过CRF,抛开准确率的关系,效率实在太低,不太适合线上使用。其实可以把历史的query都用CRF跑一次,估计能覆盖到90%以上的query,这样就可以提供线上的解决方案,不过代价太大了,训练数据都没有。。) 分词没有遇到太大的问题,使用词典进行标注的时候遇到了一个比较棘手的问题,例如某个term “ABC”,它可能是区的名字,也可能是街道的名字,那么该怎么标注呢?方案其实很简单,用贝叶斯就可以,效率高,而且简单,准确率也高~
话说回来,你如果能够解决掉分词和标注的问题,那么构造一个比较好的布尔查询语句也就很容易了,在solr中写业务相关的QParser插件,然后重写QParser的parse方法,就可以得到对应的标准lucene查询语句了,见下代码:
@Overridepublic Query parse(){ reset(); //如果是*则构造一个通配符查询,返回所有结果 if(this.qstr.equals("*")){ String defaultField = getReq().getSchema().getDefaultSearchFieldName(); Query q = new WildcardQuery(new Term(defaultField,"*")); return new NiuniuQuery(q); } long t1 = System.currentTimeMillis(); String df = req.getSchema().getDefaultSearchFieldName(); Analyzer analyzer = req.getSchema().getQueryAnalyzer(); TokenStream source; try { source = analyzer.tokenStream(df, new StringReader(this.qstr)); source.reset(); } catch (IOException e) { return null; } CachingTokenFilter buffer = new CachingTokenFilter(source); TermToBytesRefAttribute termAtt = null; PositionIncrementAttribute posIncrAtt = null; TypeAttribute type = null; int numTokens = 0; buffer.reset(); if (buffer.hasAttribute(TermToBytesRefAttribute.class)) { termAtt = buffer.getAttribute(TermToBytesRefAttribute.class); } if (buffer.hasAttribute(PositionIncrementAttribute.class)) { posIncrAtt = buffer.getAttribute(PositionIncrementAttribute.class); } if (buffer.hasAttribute(TypeAttribute.class)){ type = buffer.getAttribute(TypeAttribute.class); } int positionCount = 0; boolean severalTokensAtSamePosition = false; boolean hasMoreTokens = false; if (termAtt != null) { try { hasMoreTokens = buffer.incrementToken(); while (hasMoreTokens) { numTokens++; int positionIncrement = (posIncrAtt != null) ? posIncrAtt .getPositionIncrement() : 1; if (positionIncrement != 0) { positionCount += positionIncrement; } else { severalTokensAtSamePosition = true; } hasMoreTokens = buffer.incrementToken(); } } catch (IOException e) { // ignore } } try { // rewind the buffer stream buffer.reset(); // close original stream - all tokens buffered source.close(); } catch (IOException e) { return null; } BytesRef bytes = termAtt == null ? null : termAtt.getBytesRef(); if (numTokens == 0) return null; else { q = new BooleanQuery(positionCount == 1); for (int i = 0; i < numTokens; i++) { try { boolean hasNext = buffer.incrementToken(); assert hasNext == true; termAtt.fillBytesRef(); } catch (IOException e) { // safe to ignore, because we know the number of // tokens } termBelong(type, bytes);//解析这个term应该去哪个field中查询 } generateQuery();//根据解析结果构造布尔查询,很确定的信息直接用AND,不太确定的就拿OR System.out.println("QP解析用时:"); System.out.println(System.currentTimeMillis() - t1); return new NiuniuQuery(q); //return q; }}
当然query的预处理没有在这里处理,不过例如query截断、特殊字符处理、归一化等方案交给直接调用solr搜索服务的后台就好了
为了能够在solr中使用,需要扩展QParserPlugin插件,非常简单:
public class NiuniuQueryParserPlugin extends QParserPlugin{ public void init(NamedList args) { } @Override public QParser createParser(String qstr, SolrParams localParams, SolrParams params, SolrQueryRequest req) { return new NiuniuQueryParser(qstr, localParams, params, req); }}
当然如果想做个性化排序,可以在QP里把用户id对应的你们算法同学产出的标签或者偏好数据实时获取到(例如一个用户天天买水果,那么他搜苹果的时候,你们就该给真正的苹果多加点分了,在哪里加就看下一篇文章讨论啦!)
最后,在solr的solrconfig.xml文件中定义:
<queryParser name="niuniuparser" class="com.niuniu.search.NiuniuQueryParserPlugin"/>
然后就可以构造搜索串:hostname:port/solr/select?q=上海浦东新区蔡伦路&defType=niuniuparser ,这样就可以按照开头的“完美搜索”思路去应对这次搜索了。
最后,QP看起来简单,其实可以很复杂的哟,单拿分词一项出来,够你折腾好久了
- solr 自定义QueryParser 用户查询解析方案
- Solr源码解析之一 -- 查询解析器QueryParser
- solr 使用自定义的 QueryParser
- 查询字符串的解析—QueryParser类
- Lucene(3.5)解析查询表达式:QueryParser
- luncene 查询字符串的解析—QueryParser类
- luncene 查询字符串的解析-QueryParser类
- luncene 查询字符串的解析—QueryParser类
- Elasticsearch源码分析九--查询解析器QueryParser注册过程
- lucene QueryParser查询
- lucene自定义QueryParser
- lucene查询之 queryparser查询;及代码示例;代码实现;及查询语法解析
- solr 自定义 dismax查询方式
- solr 自定义 dismax查询方式
- solr/lucene查询语法解析
- 基于Solr的HBase实时查询方案
- Lucene(3.5)自定义QueryParser
- QueryParser.jj 文件全面解析
- 天气预报的实现分析
- SpringMvc 使用poi导入导出Excel
- Javascript笔记——String对象的常用方法
- java堆分析工具jmap
- 矩阵相关运算代码实现
- solr 自定义QueryParser 用户查询解析方案
- chrome插件开发
- 数据分析师8步法
- Activiti入门学习demo_2_简单的流程
- Cocoa过滤器NSPredicate的完全用法
- cocoaPods 1.1.0 使用
- firewalld对指定IP开放指定端口的配置
- poj 2823 Sliding Windows 线段树|单调队列
- iOS最完美的UITextField中输入金额,只能输入数字和小数点,保留两位小数点且0放在首位