Effects ofGoal-Oriented Search Suggestions

来源:互联网 发布:欧赔数据变化是什么 编辑:程序博客网 时间:2024/04/30 11:43

 

前几天看的论文都是讲如何进行意图分类,而且在提到用途的时候都用一句话归纳:能够提高搜索引擎的检索质量,能够对不同类别提供不同的排序算法。但是真正的利用起来都显得比较苍白,今天偶然看到一篇论文,这个论文写得非产的好懂,值得一提的是它将意图分类利用到了一个搜索引擎很常用的功能上:查询建议。这个论文的题目是:《Effects ofGoal-Oriented Search Suggestions》,翻译过来是“基于意图的搜索建议的有效性”,作者是James Mostert, Vera Hollink

 

摘要

很多的搜索引擎都能够通过提供一些查询的建议帮助用户重新构造他们的查询。本论文提供了一个方法来自动识别用户的查询意图,并且根据这个分类,来对应的提供面向意图的查询建议。本论文中的两个分类是“导航类”和“热点类”。导航类应该很熟悉了,这里的热点往大了说应该是信息类,但是一个显著的特点是,该类查询更加的关注当前的热点话题。通过实验来说明将用户的查询意图考虑进来是否能够显著的提高查询建议的质量。

 

简介

在查询中,对于搜索引擎一个很关键的问题是用户通常输入的查询不是最优的。这个很好理解,根据行业背景的不同或者是自身知识水平的限制,在对自己需求归纳的过程中有一些偏差。现在普遍的解决方法就是提供为数不多的相关的查询建议,以此来重定义查询。本论文的一个工作就是考虑用户的意图的基础上来进行查询扩展。有几个需要关注的问题:

  • 用户意图如何识别?
  • 面向意图的查询建议是否能够产生出来?
  • 效果如何?

前两个问题是方法论里面的一个重点,最后一个问题需要用实验来进行比较才能够得出结论。

 

方法论

一般的查询建议

为了能够检测面向意图的查询建议的有效性,我们需要一个baseline,也就是一个没有考虑意图的查询建议的算法。所以需要先建立一个一般的建议算法。该算法非常的简单:给定一个查询,搜索日志,找出这个查询之后被点击最多的URL。然后,对于每个这里面的URL,对应了一些关于它的查询。这样,就能够得到关于原来查询的“邻居”查询,而且这些邻居能够根据被点击的次数来进行排序。这样就形成了一个简单的查询建议。这个算法利用了28个星期的日志。

面向意图的查询建议

这部分是论文的研究重点。首先是两个类别:

  • 导航类:用户的目的是到达一个特定的网站。
  • 热点类:用户的意图是寻找一些当前很热点的主题的信息。
  1. 对于导航类,识别的方法相对比较简单,采用的是“点击分布”来识别。对于一个给定的查询,查找他的点击信息日志,如果大于50%的查询都点击了一个URL,那么这个查询就被识别成导航类。然后就是产生导航类查询建议,最终的目的是希望能够帮助用户到达特定的网站。为了达到这个目的,对于一个给定的被识别成导航类的查询,对于这个查询的相关的域名将被抽取出来。一些搜索引擎都能够提供关键字site来表示需要得到域名。然后的方法就和一般的方法一样了。如果产生出来的建议没有包含元四的查询并且它不是一个URL,那么就将这个建议合并到原来的查询上面,目的是使原来的查询更加的特殊化。
  2. 对于热点查询,一个直观的理解,比如在前几个月的地震的时候,如果如入“china”,建议“china earthquake”肯定是比“china travel”更加的合适的。首先仍然是识别的问题,这里也是一个非常简单的方法。统计的数据是过去40天的日志,并且计算平均值和标准偏差。如果说当前峰值和平均值的差别别标准偏差的3倍还多,那么可以认为这是一个热点事件。然后是产生查询建议,比较于普通的查询建议的算法,不需要提取所有的28个星期的查询日志,而只是过去7天的日志来作扩展。

有了这两个方面的准备,最终的算法就很简单了。对于一个查询,首先识别是否是热点类,然后识别是否是导航类,如果都不是则是其它类。

 

实验

读了这么多的论文,发现在国外的论文里面,实验才是最重要的部分,这个论文也不例外。

两个评价标准:

  • 查询建议的知识相关性:通过测量点击率:查询建议的点击次数除以显示出来的查询建议。
  • 查询建议的有效性:通过测试在输入查询之后直接点击了查询建议的数量。

结论

实验的结果来看,提高的并不是很多。总的提高在第二个指标上面提高了1%左右,但是分开来看,在热点类上面,基于目标的在两个指标上面都有很大幅度的提高。对于导航类,这个可能更好理解一点,因为用户只是想到达一个网站,所以注意力很少会集中在查询建议上面。对于热点类,两个指标的显著提高,这个其实在日常的查询中也很有体会。一般热点事件在查询的时候不知道到底怎么回事,所以只能是很模糊的输入这个事件的关键词,而搜索引擎正好能够给予更加准确化的建议。所以总的来说,面向意图的查询建议在某些方面完全能够改善用户的查询体验。

 

这篇论文写得很通俗易懂,而且用的方法都非常的简单,但是它体现的是一种实用性。用很简单的想法来解决一些很关键性的问题。最好的实验分析也很详细很到位,非常值得借鉴。

 

 

 

 

原创粉丝点击