Inferring Query Intent from Reformulations and Clicks

来源：互联网发布：青岛大学软件技术学院编辑：程序博客网时间：2024/05/14 18:59

有很多关于结果聚类的研究已经有一定的成果了，但是那些聚类都是基于返回文档的。今天读了一篇论文，发现对于结果聚类有点兴趣。论文题目是《Inferring Query Intent from Reformulations and Clicks》，翻译过来是《从查询点击和重写中推断意图》，作者是微软的Filip等。

摘要

本论文将介绍一种基于用户点击和查询日志来识别其意图的方法。通常情况下，给定一个查询和文档，在判断这个文档和这个查询意图有多相关之前，需要推断查询的意图。同一个查询不同的用户通常也会有不同的信息需求。那么一个很自然的想法就是对返回结果进行聚类，这样可能得到不同的意图类别。但是这个通常行不通，因为关键的是用户的需求，而不是返回文档。而且还有一些比如不完全查询的需要扩展的，结果聚类也得不到正确地结果。

点击和重写

输入一个查询之后，搜索引擎会返回相应的结果，用户通常点击一些结果或者输入其他的查询。这两个行为是本文的基础。本论文发现，将大规模日志中的点击和重写行为进行组合，能够识别大多数查询的意图。组合是很必要的，因为这两个行为捕获的是不同的信息。重写通常捕获的是同一个查询的不同的表达，点击表示用户可能发现了感兴趣的结果文档。

识别信息需求

三个步骤来识别查询q的可能的意图：扩展、过滤和聚类。

扩展

扩展是为了得到一个可能和q相关的查询集合，也就是能够提高召回率。我们希望找到所有可能的意图，包括现在结果里面没有的。扩展会找到最常见的关于q的k个重写。一个合法的重写满足两个条件：1）不同的用户在10分钟以内都提出来过。2）对于所有的在10分钟之内提交的查询对...。第二点我是没有看懂，所有没有写。

过滤

过滤是围了减少邻接的相关查询，提高准确率。在上一步中其实建立了一个图，那么接下来就要用随机漫步的方法，给定一个阈值，来过滤到阈值太小的两个链接。

聚类

也是采用了随机漫步的道德相似度来寻找“意图聚类”。

估计信息需要的热度

对于每个类别，我们需要赋予一个重要度，也是用0，1，2步的随机漫步。在每一步的随机漫步过程中，类似于Pagerank的算法，将自己的权重通过一定的比率，分配给他邻接的节点。这样通过几次的随机漫步，每个节点都会有一个权值。最后，每个聚类的权值就是他所包含的节点的权值之和。

评测和讨论

测评采用了TREC2003的数据。对于每个查询，有一个编辑的意图集合，然后有本算法的意图集合。从结果来看，算法得出的意图类别和编辑的有一定的区别。本算法提供的意图因为是从互联网上得出的数据来总结的，因此更加的贴近于用户的真实数据。

这个论文虽然我手头只有他的Poster，但是从整个过程来看，非常的完整。而且这里提到的应用非常的有意思，比较于传统的结果聚类，这里更加注重的用户的意图聚类。