Agglomerative clustering of a search engine query log (论文笔记)

来源：互联网发布：钟振振厉害吗知乎编辑：程序博客网时间：2024/04/30 09:30

原论文下载地址：http://www.cs.cornell.edu/courses/cs6784/2010sp/lecture/24-BeefermanBerger00.pdf

最近看了一下Agglomerative clustering of a search engine query log这篇论文，有一定的收货，并做一些笔记，方便以后复习使用.

这篇论文主要讲述了从搜索引擎的点击数据中对query和url进行聚类。在比较成熟的文本聚类中，一般使用的是用一个高纬的term向量来表述一个文档，然后再使用cos、KL，皮尔逊等距离计算来公式来计算doc之间的相似度。这篇论文中讲述的算法跟以前的算法不同之处是不依赖query和url的内容，而直接使用用户的点击信息来进行聚类。

url聚类：

之前使用url的内容进行聚类，使用文本的内容来进行聚类有如下几点的不足：

1. 内容较少的页面，如：一些包含大量图片的网站等

2. 有些需要登录的页面

3. 页面内容动态变化

对于如上几种情况，本论文介绍的不考虑内容的算法将有优势。

query的聚类：

query一般比较短，因为特征将会特别稀疏，使用点击数据将能有效的解决这方面的问题。query的聚类可以应用在现在搜索引擎的相关搜索中。

其它解决query比较短的问题还有：

从搜索引擎中抓取所有query的摘要数据，然后进行聚类

数据源：

收集用户的点击数据，数据内容包含query，url，表示用户搜索了query，并且点击了url。