solr 自定义QueryParser 用户查询解析方案

来源:互联网 发布:主机屋域名绑定 编辑:程序博客网 时间:2024/05/21 17:30

背景


一个完整的搜索流程,query其实是最关键的角色,它甚至比人的标签等信息更加关键,这也是PPC这种搜索广告赚钱的基本保障。

我们作为搜索服务提供商,能够怎么应对这些query,并且根据用户输入的query构造出不同的lucene布尔查询,这是非常关键的一个问题。拿之前做过的地图检索为例,用户输入:上海市浦东新区罗山路28号,我们的底层schema存有省,市,县,区,街道等信息,那么我们如果把用户query进行分词可以得到:“上海市”,“浦东新区”,“罗山路”,“28号”。(至于如何能得到这些term而不是使用ngram这种分词,可以参考一下现有的一些分词方案。不过对于电商网站来讲,扩词典就足够了)

得到上述的几个term(也称token)之后,可以看到,如果能去省、市信息中搜索“上海市”,去区信息中搜索“浦东新区”,去街道信息中搜索“罗山路”和“28号”甚至是“罗山路28号”,那么只要索引里有相应的数据,这次搜索就是“完美”的。

方案


最近就使用自定义的queryParserPlugin在解决相应的问题:
首先需要解决tokenize和tag,即首先需要有比较好的分词和标注方案,即你如何能够得到“上海市”这个term并且给这个term加个“省”的标签。(还是那句话,query和自然语言的差距太大了,扩词典是最便捷的解决方案,之前试过CRF,抛开准确率的关系,效率实在太低,不太适合线上使用。其实可以把历史的query都用CRF跑一次,估计能覆盖到90%以上的query,这样就可以提供线上的解决方案,不过代价太大了,训练数据都没有。。) 分词没有遇到太大的问题,使用词典进行标注的时候遇到了一个比较棘手的问题,例如某个term “ABC”,它可能是区的名字,也可能是街道的名字,那么该怎么标注呢?方案其实很简单,用贝叶斯就可以,效率高,而且简单,准确率也高~

话说回来,你如果能够解决掉分词和标注的问题,那么构造一个比较好的布尔查询语句也就很容易了,在solr中写业务相关的QParser插件,然后重写QParser的parse方法,就可以得到对应的标准lucene查询语句了,见下代码:

@Overridepublic Query parse(){    reset();    //如果是*则构造一个通配符查询,返回所有结果    if(this.qstr.equals("*")){        String defaultField = getReq().getSchema().getDefaultSearchFieldName();        Query q = new WildcardQuery(new Term(defaultField,"*"));        return new NiuniuQuery(q);    }    long t1 = System.currentTimeMillis();    String df = req.getSchema().getDefaultSearchFieldName();    Analyzer analyzer = req.getSchema().getQueryAnalyzer();    TokenStream source;    try {        source = analyzer.tokenStream(df, new StringReader(this.qstr));        source.reset();    } catch (IOException e) {        return null;    }    CachingTokenFilter buffer = new CachingTokenFilter(source);    TermToBytesRefAttribute termAtt = null;    PositionIncrementAttribute posIncrAtt = null;    TypeAttribute type = null;    int numTokens = 0;    buffer.reset();    if (buffer.hasAttribute(TermToBytesRefAttribute.class)) {        termAtt = buffer.getAttribute(TermToBytesRefAttribute.class);    }    if (buffer.hasAttribute(PositionIncrementAttribute.class)) {        posIncrAtt = buffer.getAttribute(PositionIncrementAttribute.class);    }    if (buffer.hasAttribute(TypeAttribute.class)){        type = buffer.getAttribute(TypeAttribute.class);    }    int positionCount = 0;    boolean severalTokensAtSamePosition = false;    boolean hasMoreTokens = false;    if (termAtt != null) {        try {            hasMoreTokens = buffer.incrementToken();            while (hasMoreTokens) {                numTokens++;                int positionIncrement = (posIncrAtt != null) ? posIncrAtt                        .getPositionIncrement() : 1;                if (positionIncrement != 0) {                    positionCount += positionIncrement;                } else {                    severalTokensAtSamePosition = true;                }                hasMoreTokens = buffer.incrementToken();            }        } catch (IOException e) {            // ignore        }    }    try {        // rewind the buffer stream        buffer.reset();        // close original stream - all tokens buffered        source.close();    } catch (IOException e) {        return null;    }    BytesRef bytes = termAtt == null ? null : termAtt.getBytesRef();    if (numTokens == 0)        return null;    else {        q = new BooleanQuery(positionCount == 1);        for (int i = 0; i < numTokens; i++) {            try {                boolean hasNext = buffer.incrementToken();                assert hasNext == true;                termAtt.fillBytesRef();            } catch (IOException e) {                // safe to ignore, because we know the number of                // tokens            }            termBelong(type, bytes);//解析这个term应该去哪个field中查询        }        generateQuery();//根据解析结果构造布尔查询,很确定的信息直接用AND,不太确定的就拿OR        System.out.println("QP解析用时:");        System.out.println(System.currentTimeMillis() - t1);        return new NiuniuQuery(q);        //return q;    }}

当然query的预处理没有在这里处理,不过例如query截断、特殊字符处理、归一化等方案交给直接调用solr搜索服务的后台就好了

为了能够在solr中使用,需要扩展QParserPlugin插件,非常简单:

public class NiuniuQueryParserPlugin extends QParserPlugin{    public void init(NamedList args) {    }    @Override    public QParser createParser(String qstr, SolrParams localParams, SolrParams params, SolrQueryRequest req) {        return new NiuniuQueryParser(qstr, localParams, params, req);    }}

当然如果想做个性化排序,可以在QP里把用户id对应的你们算法同学产出的标签或者偏好数据实时获取到(例如一个用户天天买水果,那么他搜苹果的时候,你们就该给真正的苹果多加点分了,在哪里加就看下一篇文章讨论啦!)

最后,在solr的solrconfig.xml文件中定义:

<queryParser name="niuniuparser" class="com.niuniu.search.NiuniuQueryParserPlugin"/> 

然后就可以构造搜索串:hostname:port/solr/select?q=上海浦东新区蔡伦路&defType=niuniuparser ,这样就可以按照开头的“完美搜索”思路去应对这次搜索了。

最后,QP看起来简单,其实可以很复杂的哟,单拿分词一项出来,够你折腾好久了

1 0