Robust Classification of Rare Queries Using Web Knowledge

来源：互联网发布：青岛网络教育编辑：程序博客网时间：2024/06/03 19:59

这应该是一篇很好的文章，作者是broder，这个哥也是雅虎计算广告的大哥大，以后我还要很多的看它论文的机会。今天我看了一个篇他2007年的论文，题目是《Robust Classification of Rare Queries Using Web Knowledge》，翻译一下就是《利用Web知识的稀有查询的健壮分类》。可能翻译的不好，总的来说3个点：web知识、面向稀少查询和健壮的分类。

摘要

我们提出一个能够实际上简历查询分类系统的方法，该系统能够识别大量的类别，并且准确率能够接受，并且能够实时的处理大量的商业搜索引擎的查询。我们豪斯用了一个隐式反馈技术：给一个查询，我们根据该查询的查询结果的分类来识别他的主题。因为是为了处理搜索广告方面的问题，所以我们还要将集中在稀有查询上面。

查询的“短”问题至今没有得到很好的解决。因此，利用额外的知识来扩充查询能够很好的提高搜索质量。另一方面，更好地理解搜索意图能够让搜索引擎发现商业价值，特别是搜索广告。

本论文将提供一个查询分类的方法，目的是将查询分类的一个6000大小的目录中。搜索引擎通常索引了大量的互联网知识，所以我们可以用查询的结果来获得额外的灵感。首先是隐式反馈技术来分类，但是并非所以的查询结果都很相关，所以需要一个投票机制来觉得查询的类别。一个简单的描述：

将查询放到搜索引擎，得到n个排名较高的结果

爬取这n个结果的网页

根据这些网页的分类来对查询分类

因为所有被所以的web文档都可以事先分好类，所以是一个离线的过程。所以在线的过程只有投票机制了，而且计算量很小。另一个重要的方面是对于查询的选择。我们选取的是稀有的查询，也就是查询的2－8原理的“长尾”部分，广告就是需要集中这些长尾的部分。