Inferring Query Intent from Reformulations and Clicks

来源:互联网 发布:青岛大学软件技术学院 编辑:程序博客网 时间:2024/05/14 18:59

有很多关于结果聚类的研究已经有一定的成果了,但是那些聚类都是基于返回文档的。今天读了一篇论文,发现对于结果聚类有点兴趣。论文题目是《Inferring Query Intent from Reformulations and Clicks》,翻译过来是《从查询点击和重写中推断意图》,作者是微软的Filip等。

 

摘要

本论文将介绍一种基于用户点击和查询日志来识别其意图的方法。通常情况下,给定一个查询和文档,在判断这个文档和这个查询意图有多相关之前,需要推断查询的意图。同一个查询不同的用户通常也会有不同的信息需求。那么一个很自然的想法就是对返回结果进行聚类,这样可能得到不同的意图类别。但是这个通常行不通,因为关键的是用户的需求,而不是返回文档。而且还有一些比如不完全查询的需要扩展的,结果聚类也得不到正确地结果。

 

点击和重写

输入一个查询之后,搜索引擎会返回相应的结果,用户通常点击一些结果或者输入其他的查询。这两个行为是本文的基础。本论文发现,将大规模日志中的点击和重写行为进行组合,能够识别大多数查询的意图。组合是很必要的,因为这两个行为捕获的是不同的信息。重写通常捕获的是同一个查询的不同的表达,点击表示用户可能发现了感兴趣的结果文档。

 

识别信息需求

三个步骤来识别查询q的可能的意图:扩展、过滤聚类

扩展

扩展是为了得到一个可能和q相关的查询集合,也就是能够提高召回率。我们希望找到所有可能的意图,包括现在结果里面没有的。扩展会找到最常见的关于q的k个重写。一个合法的重写满足两个条件:1)不同的用户在10分钟以内都提出来过。2)对于所有的在10分钟之内提交的查询对...。第二点我是没有看懂,所有没有写。

过滤

过滤是围了减少邻接的相关查询,提高准确率。在上一步中其实建立了一个图,那么接下来就要用随机漫步的方法,给定一个阈值,来过滤到阈值太小的两个链接。

聚类

也是采用了随机漫步的道德相似度来寻找“意图聚类”。

估计信息需要的热度

对于每个类别,我们需要赋予一个重要度,也是用0,1,2步的随机漫步。在每一步的随机漫步过程中,类似于Pagerank的算法,将自己的权重通过一定的比率,分配给他邻接的节点。这样通过几次的随机漫步,每个节点都会有一个权值。最后,每个聚类的权值就是他所包含的节点的权值之和。

 

评测和讨论

测评采用了TREC2003的数据。对于每个查询,有一个编辑的意图集合,然后有本算法的意图集合。从结果来看,算法得出的意图类别和编辑的有一定的区别。本算法提供的意图因为是从互联网上得出的数据来总结的,因此更加的贴近于用户的真实数据。

 

这个论文虽然我手头只有他的Poster,但是从整个过程来看,非常的完整。而且这里提到的应用非常的有意思,比较于传统的结果聚类,这里更加注重的用户的意图聚类。

原创粉丝点击