测试——搜索引擎

来源:互联网 发布:抢票软件开发 编辑:程序博客网 时间:2024/05/22 14:01
学术活动要点:
      搜索引擎在我们的日常生活中发挥着至关重要的作用。相关性是商业搜索引擎的核心问题。它吸引了来自学术界和工业界的数千名研究人员,并且已经研究了几十年。在现代搜索引擎中的相关性已经远远超出了文本匹配,现在涉及巨大的挑战。查询和URL之间的语义差距是改善基本相关性的主要障碍。点击帮助提供了提高相关性的提示,但不幸的是对于大多数尾部查询,点击信息太稀疏,嘈杂或完全缺失。为了全面的相关性,结果的新近度和位置敏感性也很关键。
      本次报告夏彬博士主要是基于Dawei Yin等人撰写的“Ranking Relevance in Yahoo Search”这篇论文,给我们介绍了Yahoo搜索引擎中的相关性的解决方案。其中主要介绍了基本相关性的三个关键技术 - 排名函数,语义匹配特征和查询重写。描述了对于近因敏感和位置敏感的相关性的解决方案。这项工作建立在雅虎搜索的20年的现有努力,总结最新的进展,并提供一系列实用的相关解决方案。这篇论文的性能是基于雅虎商业搜索引擎,其中数十亿的URL由排名系统索引和服务。
      当我们在Yahoo搜索引擎中输入想要查询的信息时排在最前面的一般是维基百科,定义介绍等内容,然后随着相关性地降低,出现的搜索结果往往就越靠后。目前搜索引擎中存在的问题出要有以下几点:(1)输入关键词信息与要查询的信息存在语义间隙;(2)查询和查询结果中的长尾分布;(3)许多查询结果都是按时间排序,一般显示最新信息;(4)移动搜索,比如说手机搜索需要搜索引擎将位置信息考虑到相关性当中。
      雅虎搜索引擎的搜索过程分为5个步骤:(1)输入搜索关键词后,将搜索请求发送给多个服务器;(2)每个服务器都找出相关资料;(3)利用lightweight排序函数进行第一轮排序;(4)利用core ranking进行第二轮排序,每个服务器排出前N条相关资料;(5)将所有服务器查询到的前N个资料合并,在进行重新排序,几位最终搜索结果。其中,core ranking中应用了三种排序函数分别是:GBRank、Logistic Loss、Logistic Rank,最终实验结果显示经过这三种函数的逐一排序,最终搜索结果有效地排除了比较差的一些搜索结果,极大地提高了搜索的准确性。
      语义匹配特征主要分三点:(1)点击相似性,常见的比如在购物网站,当你较多地搜索一个商品后,下面会有一系列相似商品的推荐;(2)翻译文本的匹配,比如中英文互翻,由于语法不同以及单词的多语义,经常会发生翻译后的语法或语义错误(3)深度语义匹配,包括训练集选择和特征选取。
      同时,报告还强调了查询重写的重要性。一个简单的例子就是,当你想要查询iphone 7的价格时,一般会输入“iphone 7 价格”,这个时候查询显示的结果一般是iphone7价格怎样而不是iphone的具体价格。这个时候就需要有一个查询重写,将“iphone 7 价格”重写为“iphone 7 元”或“phone 7 RMB”,这样查询到的结果就是用户想要获取的准确结果。


启发:
      夏彬师兄以一个过来人的身份,给我们提了一些在今后的学习中应当注意的的事情,从中领会到:(1)多读英文论文(特别是顶级会议论文),这不仅是为了提高自己的英文水平,还是因为英文论文叙述清楚,简介易懂,不会像一些中文论文长篇大论,晦涩难懂,。(2)在今后做科研的时候,注重发现新的问题,而不是为了毕业写出一篇论文只求正确率。科研最大的魅力也是最重要的就在于不断地发现并解决新的问题。(3)多合作写论文,与不同研究领域的人交流,了解其他领域正在发生的事情,将他们的思想方法结合自己的研究当中,或许会碰撞出不一样的思想火花。


见解:
      雅虎搜索的综合相关解决方案是有效的,实用的,并且已经在雅虎的商业搜索引擎中大规模地部署和测试。所提出的解决方案不限于web搜索相关性,而且还可以用于垂直搜索引擎,例如购物,新闻,本地等。
随着信息技术的不断发展,搜索引擎的相关解决方案仍会不断改善进步,为人们的搜索提供更加实时、准确、实用的信息。


建议:
      此次报告收益匪浅,无建议。
原创粉丝点击