Agglomerative clustering of a search engine query log (论文笔记)
来源:互联网 发布:钟振振厉害吗 知乎 编辑:程序博客网 时间:2024/04/30 09:30
原论文下载地址:http://www.cs.cornell.edu/courses/cs6784/2010sp/lecture/24-BeefermanBerger00.pdf
最近看了一下Agglomerative clustering of a search engine query log这篇论文,有一定的收货,并做一些笔记,方便以后复习使用.
这篇论文主要讲述了从搜索引擎的点击数据中对query和url进行聚类。在比较成熟的文本聚类中,一般使用的是用一个高纬的term向量来表述一个文档,然后再使用cos、KL,皮尔逊等距离计算来公式来计算doc之间的相似度。这篇论文中讲述的算法跟以前的算法不同之处是 不依赖query和url的内容,而直接使用用户的点击信息来进行聚类。
url聚类:
之前使用url的内容进行聚类,使用文本的内容来进行聚类有如下几点的不足:
1. 内容较少的页面,如:一些包含大量图片的网站等
2. 有些需要登录的页面
3. 页面内容动态变化
对于如上几种情况,本论文介绍的不考虑内容的算法将有优势。
query的聚类:
query一般比较短,因为特征将会特别稀疏,使用点击数据将能有效的解决这方面的问题。query的聚类可以应用在现在搜索引擎的相关搜索中。
其它解决query比较短的问题还有:
从搜索引擎中抓取所有query的摘要数据,然后进行聚类
数据源:
收集用户的点击数据,数据内容包含query,url,表示用户搜索了query,并且点击了url。
基于图的迭代聚类:
二部图的生成算法:
query/url相似度度量:
N(x)表示x的邻接节点的个数。
此相似度度量的不足:
◦ Two URLs shared should be better than one
◦ More clicks should mean better correlation
◦ Sensitivity to noisy clickthroughs。
url & query聚类算法
论文总结
1. 本文介绍的图聚类算法,可以抽象为一个层次聚类算法,只是簇之间的距离使用的是 本文介绍的度量方式。因此计算复杂度较高
2. 论文介绍的算法,能够解决query聚类特征稀疏性问题。由<query,url>数据可以引申到 <query , session> <item,user>等类型的数据
3. 是否可以使用本算法用来分类?假设有一部分标注的label,那么通过二部图的迭代可以把 query的行业信息传递给 url/query节点,多次迭代达到稳定则可以给所有的ur和query打上行业label。
- Agglomerative clustering of a search engine query log (论文笔记)
- 《Agglomerative clustering of a search engine query log》阅读笔记
- Agglomerative Clustering
- Science论文"Clustering by fast search and find of density peaks"学习笔记
- 【论文学习笔记】Clustering by fast search and find of density peak
- 搜索引擎早期重要论文推荐系列【8】《Implementation of a Modern Web Search Engine Cluster》
- 《People Searching for People Anasysis of a People Search Engine Log》
- Example for Agglomerative Clustering
- Agglomerative vs. Divisive Clustering
- Agglomerative Hierarchical Clustering(AHC)
- A Comparison of Free Search Engine Software
- Clustering by fast search and find of density peaks 论文中文翻译及matlab实现
- The Anatomy of a Large-Scale Hypertextual Web Search Engine
- The Anatomy of a Large-Scale Hypertextual Web Search Engine
- The Anatomy of a Large-Scale Hypertextual Web Search Engine
- The Anatomy of a Large-Scale Hypertextual Web Search Engine
- The Anatomy of a Large-Scale Hypertextual Web Search Engine
- 论文笔记:Clustering is efficient for approximate maximum inner product search
- 在VC中读写ini配置文件
- 关于java协程和kilim的一些概念
- HDU 1237简单计算器
- TableView 使用时的一个异常
- 笔记本设置WIfi热点
- Agglomerative clustering of a search engine query log (论文笔记)
- linux SUSE乱码问题
- 科目三路考操作要点
- 使用选择、冒泡排序算法实现数字大小排序
- XDR-初探XDR对变长类型空间的管理。--log
- 黑马程序员_7K月薪面试题破解之二_银行业务调度系统
- ~oracle/oradiag_oracle directory
- UML用例图中泛化,继承等的区别
- ACM中国国家集训队论文集目录(1999-2009)