Robust Classification of Rare Queries Using Web Knowledge

来源:互联网 发布:青岛网络教育 编辑:程序博客网 时间:2024/06/03 19:59

这应该是一篇很好的文章,作者是broder,这个哥也是雅虎计算广告的大哥大,以后我还要很多的看它论文的机会。今天我看了一个篇他2007年的论文,题目是《Robust Classification of Rare Queries Using Web Knowledge》,翻译一下就是《利用Web知识的稀有查询的健壮分类》。可能翻译的不好,总的来说3个点:web知识、面向稀少查询和健壮的分类。

 

摘要

我们提出一个能够实际上简历查询分类系统的方法,该系统能够识别大量的类别,并且准确率能够接受,并且能够实时的处理大量的商业搜索引擎的查询。我们豪斯用了一个隐式反馈技术:给一个查询,我们根据该查询的查询结果的分类来识别他的主题。因为是为了处理搜索广告方面的问题,所以我们还要将集中在稀有查询上面。

查询的“短”问题至今没有得到很好的解决。因此,利用额外的知识来扩充查询能够很好的提高搜索质量。另一方面,更好地理解搜索意图能够让搜索引擎发现商业价值,特别是搜索广告。

本论文将提供一个查询分类的方法,目的是将查询分类的一个6000大小的目录中。搜索引擎通常索引了大量的互联网知识,所以我们可以用查询的结果来获得额外的灵感。首先是隐式反馈技术来分类,但是并非所以的查询结果都很相关,所以需要一个投票机制来觉得查询的类别。  一个简单的描述:

将查询放到搜索引擎,得到n个排名较高的结果

爬取这n个结果的网页

根据这些网页的分类来对查询分类

 

因为所有被所以的web文档都可以事先分好类,所以是一个离线的过程。所以在线的过程只有投票机制了,而且计算量很小。另一个重要的方面是对于查询的选择。我们选取的是稀有的查询,也就是查询的2-8原理的“长尾”部分,广告就是需要集中这些长尾的部分。

原创粉丝点击