Hulu实验报告：点击率评测推荐系统合适吗？

来源：互联网发布：淘宝商城今日特价编辑：程序博客网时间：2024/05/01 02:50

Anand Rajaraman和Jeffrey Ullman合著的新书（更准确地说是草稿）Mining of Massive Datasets可以下载了。按kdnuggets.com的说法好像是刚刚放出来的。Anand Rajaraman是Kosmix公司的联合创始人。Jeffrey Ullman大家应该不陌生，他著作的形式化语言和数据库原理方面的教材都是相应领域的奠基之作。从目录看这本书的水准和Ullman的其它图书相比差距甚大，不过作为入门参考或者扩展知识范围应该还是不错的。

这本书对链接分析，频繁集，聚类算法，MapReduce，推荐系统等都有介绍，不过对MapReduce的介绍只有短短二三十页，估计很难满足大家的胃口，另外在后续章节里好像基本不再提了，也是很大的缺失。比较有特色的章节是：

1. Locality Sensitive Hashing（LSH）：LSH在检测重复网页、图像检索等领域应用较多。比如作者在主页上说不要侵犯版权，因为用LSH技术很容易查到。几年前为学习LSH，我曾花六七十美元在Amazon.com买了本Foundations of Multidimensional And Metric Data Structures，结果上边只有六七页LSH的介绍，这本书关于LSH的内容有50来页，从目录看应该足够了解LSH的基本原理了。

2. 数据流：在类似于围脖那样数据源源不断地高速到达的互联网应用中，最简单的统计工作也变得相当复杂。比如每天要统计百度过去一年中出现次数最多的k个查询，因为不同的查询数量太大，幼稚的（naive）方法可能会耗费几十G甚至几十T的内存，数据流方法则可以用非常小的内存，只对所有查询读取一边就得到结果，当然，会有出现误差的可能。数据流的研究非常广，大概能想到的数据挖掘方法，都有相应的数据流版本。我当年也曾把自己的一个算法改成数据流版本的想去学术会议上灌水，可惜被拒一次后就毕业没经费了，时间太久了，现在连数据流最基本的算法机制也很模糊了。此书主要介绍了数据流的一些统计方法，还有数据流的聚类，频繁集挖掘。

3. 计算广告学：Sponsored Search是个比较庞杂的话题，这本书二十多页的介绍显得太单薄了，看目录应该比Yahoo!的那个计算广告学课程讲义还要单薄，但包含这个内容的书的确还很少见。主要讨论了所谓AdWrods问题：假定点击率是已知的，假定广告数目是固定的，怎么调度广告最优？这样的模型中，类似于AdPredictor的点击率预测不需要了，开发和利用（Exploration and Exploitation）的平衡也不需要考虑了，是一个严重简化了的广告模型，不过用来初步了解一下相关内容还是可以的。

（欢迎转载谢绝篡改作者:chen_1st 微博：http://t.sina.com.cn/chen1st）