solr 自定义QueryParser 用户查询解析方案

来源：互联网发布：主机屋域名绑定编辑：程序博客网时间：2024/05/21 17:30

背景

一个完整的搜索流程，query其实是最关键的角色，它甚至比人的标签等信息更加关键，这也是PPC这种搜索广告赚钱的基本保障。

我们作为搜索服务提供商，能够怎么应对这些query，并且根据用户输入的query构造出不同的lucene布尔查询，这是非常关键的一个问题。拿之前做过的地图检索为例，用户输入：上海市浦东新区罗山路28号，我们的底层schema存有省，市，县，区，街道等信息，那么我们如果把用户query进行分词可以得到：“上海市”，“浦东新区”，“罗山路”，“28号”。(至于如何能得到这些term而不是使用ngram这种分词，可以参考一下现有的一些分词方案。不过对于电商网站来讲，扩词典就足够了)

得到上述的几个term(也称token)之后，可以看到，如果能去省、市信息中搜索“上海市”，去区信息中搜索“浦东新区”，去街道信息中搜索“罗山路”和“28号”甚至是“罗山路28号”，那么只要索引里有相应的数据，这次搜索就是“完美”的。

方案

最近就使用自定义的queryParserPlugin在解决相应的问题：
首先需要解决tokenize和tag，即首先需要有比较好的分词和标注方案，即你如何能够得到“上海市”这个term并且给这个term加个“省”的标签。(还是那句话，query和自然语言的差距太大了，扩词典是最便捷的解决方案，之前试过CRF，抛开准确率的关系，效率实在太低，不太适合线上使用。其实可以把历史的query都用CRF跑一次，估计能覆盖到90%以上的query，这样就可以提供线上的解决方案，不过代价太大了，训练数据都没有。。) 分词没有遇到太大的问题，使用词典进行标注的时候遇到了一个比较棘手的问题，例如某个term “ABC”，它可能是区的名字，也可能是街道的名字，那么该怎么标注呢？方案其实很简单，用贝叶斯就可以，效率高，而且简单，准确率也高~

话说回来，你如果能够解决掉分词和标注的问题，那么构造一个比较好的布尔查询语句也就很容易了，在solr中写业务相关的QParser插件，然后重写QParser的parse方法，就可以得到对应的标准lucene查询语句了，见下代码：

@Overridepublic Query parse(){    reset();    //如果是*则构造一个通配符查询，返回所有结果    if(this.qstr.equals("*")){        String defaultField = getReq().getSchema().getDefaultSearchFieldName();        Query q = new WildcardQuery(new Term(defaultField,"*"));        return new NiuniuQuery(q);    }    long t1 = System.currentTimeMillis();    String df = req.getSchema().getDefaultSearchFieldName();    Analyzer analyzer = req.getSchema().getQueryAnalyzer();    TokenStream source;    try {        source = analyzer.tokenStream(df, new StringReader(this.qstr));        source.reset();    } catch (IOException e) {        return null;    }    CachingTokenFilter buffer = new CachingTokenFilter(source);    TermToBytesRefAttribute termAtt = null;    PositionIncrementAttribute posIncrAtt = null;    TypeAttribute type = null;    int numTokens = 0;    buffer.reset();    if (buffer.hasAttribute(TermToBytesRefAttribute.class)) {        termAtt = buffer.getAttribute(TermToBytesRefAttribute.class);    }    if (buffer.hasAttribute(PositionIncrementAttribute.class)) {        posIncrAtt = buffer.getAttribute(PositionIncrementAttribute.class);    }    if (buffer.hasAttribute(TypeAttribute.class)){        type = buffer.getAttribute(TypeAttribute.class);    }    int positionCount = 0;    boolean severalTokensAtSamePosition = false;    boolean hasMoreTokens = false;    if (termAtt != null) {        try {            hasMoreTokens = buffer.incrementToken();            while (hasMoreTokens) {                numTokens++;                int positionIncrement = (posIncrAtt != null) ? posIncrAtt                        .getPositionIncrement() : 1;                if (positionIncrement != 0) {                    positionCount += positionIncrement;                } else {                    severalTokensAtSamePosition = true;                }                hasMoreTokens = buffer.incrementToken();            }        } catch (IOException e) {            // ignore        }    }    try {        // rewind the buffer stream        buffer.reset();        // close original stream - all tokens buffered        source.close();    } catch (IOException e) {        return null;    }    BytesRef bytes = termAtt == null ? null : termAtt.getBytesRef();    if (numTokens == 0)        return null;    else {        q = new BooleanQuery(positionCount == 1);        for (int i = 0; i < numTokens; i++) {            try {                boolean hasNext = buffer.incrementToken();                assert hasNext == true;                termAtt.fillBytesRef();            } catch (IOException e) {                // safe to ignore, because we know the number of                // tokens            }            termBelong(type, bytes);//解析这个term应该去哪个field中查询        }        generateQuery();//根据解析结果构造布尔查询，很确定的信息直接用AND，不太确定的就拿OR        System.out.println("QP解析用时：");        System.out.println(System.currentTimeMillis() - t1);        return new NiuniuQuery(q);        //return q;    }}

当然query的预处理没有在这里处理，不过例如query截断、特殊字符处理、归一化等方案交给直接调用solr搜索服务的后台就好了

为了能够在solr中使用，需要扩展QParserPlugin插件，非常简单：

public class NiuniuQueryParserPlugin extends QParserPlugin{    public void init(NamedList args) {    }    @Override    public QParser createParser(String qstr, SolrParams localParams, SolrParams params, SolrQueryRequest req) {        return new NiuniuQueryParser(qstr, localParams, params, req);    }}

当然如果想做个性化排序，可以在QP里把用户id对应的你们算法同学产出的标签或者偏好数据实时获取到(例如一个用户天天买水果，那么他搜苹果的时候，你们就该给真正的苹果多加点分了，在哪里加就看下一篇文章讨论啦！)

最后，在solr的solrconfig.xml文件中定义：

<queryParser name="niuniuparser" class="com.niuniu.search.NiuniuQueryParserPlugin"/>

然后就可以构造搜索串：hostname:port/solr/select?q=上海浦东新区蔡伦路&defType=niuniuparser ，这样就可以按照开头的“完美搜索”思路去应对这次搜索了。

最后，QP看起来简单，其实可以很复杂的哟，单拿分词一项出来，够你折腾好久了

1 0