《Recommender Systems Handbook》读书笔记

来源：互联网发布：淘宝可靠的正品美瞳店编辑：程序博客网时间：2024/06/05 00:39

转载出处：http://www.cnblogs.com/zuoqs/archive/2012/03/18/2405211.html

《Recommender Systems Handbook》，市面上不多的关于推荐系统的书之一。2010年10月出版，英文版。目前还没有中文版，估计出中文版的可能性不大。读者数量太少了。全书871页，比较厚。Amazon.com上这本书还没有读者评论，看来在英语世界里“推荐系统“这个主题也相对比较冷。总体感觉这本书对推荐系统的介绍相当全面。

全书共分五大部分：
1：基础技术，介绍各种推荐算法。
2：具体应用及其评估
3：与推荐系统交互
4：推荐系统与社群
5：高级算法

一二部分比较基础，后面三个部分相对来说离实际应用远一些，许多内容还处于研究中。

以下是读书过程中的一些摘抄：

书中第一章是全书介绍，其中总结了推荐系统的用途如下：

1：增加产品销售量；
2：销售更多类别的产品。推荐系统可以推荐出用户可能本来不会去留意的其他类别的商品；
3：提高用户满意度；
4：提高用户忠诚度；
5：更好地理解用户需求；
6：找到一些优秀的产品；
7：找到全部优秀的产品；某些场景（比如一些医疗或财务的应用）需要找到全部的合适的产品；
8：对产品做注解，比如在电视推荐系统中说明哪些节目值得观看；
9：推荐系列产品；
10：推荐打包产品；
11：只看不买，这种场景下仍然可以推荐出匹配用户兴趣的产品；
12：找到可信的推荐系统：有时候用户不相信系统的推荐，有些体统可以提供一些功能让用户去测试它们的推荐结果；
13：改善用户资料：通过推荐系统可以知道更多的用户的喜好；
14：自我表达：有些用户喜欢表达自己对产品的看法；
15：帮助他人；
16：影响他人；

第二章：推荐系统中使用的数据挖掘方法，分为：数据处理（相似度度量、抽样、降维、降噪）、分类（具体算法有最近邻、决策树、基于规则的分类、贝叶斯分类、人工神经网络、支持向量机）、聚类分析、关联规则挖掘。
第三章：基于内容的推荐系统：State of the Art and Trends。
第四章：基于近邻的推荐方法概览。

以下一小段内容摘译自第四章：

有三种类型的信息搜索：
1：搜索对象清晰可辨；
2：搜索对象不能被完全描述，但是可以被一眼认出；
3：以意外的、偶然的方式获取信息；

第五章：协同过滤中的改进；
第六章：开发基于约束的推荐器；

以下内容摘自第六章：

传统推荐方法（基于内容的过滤和协同过滤）对于书，电影，新闻之类的产品是非常适合的。但是在汽车，电脑，房产，财务服务等领域的推荐中不是最好的方法。比如房产的买卖数量要少很多，某个产品不容易收集到大量的用户评价。并且，用户对基于数年前的产品特征的推荐会很不满意。
基于知识的推荐系统可以解决这类问题，并且基于知识的推荐系统没有冷启动（新产品得不到推荐）的问题。当然，知识获取是这类系统的瓶颈。

第七章：上下文感知的推荐系统：常规推荐系统只考虑user和item，上下文感知的推荐系统则认为“上下文信息”也需要考虑。比如旅游网站的推荐，冬天与夏天应该有很大不同；再比如新闻网站的推荐需要考虑时间，工作日用户更愿意关注时事新闻和股市信息，周末则更愿意关注电影评论和购物信息；
第八章：评估推荐系统。

第九章：一个IPTV服务供应商的推荐系统：一个大规模产品环境。介绍一个电视点播系统中的推荐系统。挑战是需要实时，同时又无法判断操作遥控器的用户的身份（解决方案是根据时间段来区分用户）
第十章：如何在实验室之外得到推荐系统：介绍搭建实际应用的推荐系统需要考虑的方面；
第十一章：匹配推荐技术与领域：介绍不同应用场景下适用的推荐技术与算法；
第十二章：Technology Enhanced Learning中的推荐系统；

第十三章：对于评论推荐系统（Critiquing Recommenders）的评估。所谓评论推荐系统，是根据用户的评论来调整推荐内容的系统。
第十四章：创建更可信的、更有说服力的推荐系统：原始特征对推荐系统评估的影响
第十五章：为推荐系统设计、评估“推荐系统给用户的解释”（Designing and Evaluating Explanations for Recommender Systems）
第十六章：对“基于点评研究的生产推荐系统”的可用性的指导
第十七章：基于地图的产品类别可视化
第十八章：个性化web搜索中的社群、协同与推荐系统
第十九章：社区tag推荐系统
第二十章：信任与推荐
第二十一章：团体推荐系统：合并个体模型
第二十二章：聚集推荐系统中的参数
第二十三章：推荐系统中的实时学习
第二十四章：多个评判标准的推荐系统
第二十五章：健壮的推荐

几个数据挖掘网站：

一个中文的数据挖掘网络资源的索引：“数据草堂：优秀的数据分析师应该关注哪些网站”（http://blog.sina.com.cn/s/blog_5fc375650102dqri.html）。

一个入门级的网站：网站分析在中国（http://www.chinawebanalytics.cn/），这个网站的文章好像基本出自一人之手，其网站地图给出的大纲比较有条理，可以算一个网站分析入门的网站。作者有相关工作经验，写的还不错。

一个中等水平的网站：网站数据分析（http://webdataanalysis.net/）。看了几篇文章，出自同一个作者，感觉算是中文的网络分析中水平还不错的。

一个应该是水平比较高的网站：Occam‘s Razor（http://www.kaushik.net/avinash/）。作者是数据分析名著《精通Web Analytics 2.0——用户中心科学与在线统计艺术》《精通Web Analytics——来自专家的最佳Web分析策略》两本书的作者，书中介绍说他是Google分析的布道者。看了网站上的一篇讲邮件营销的：Email Marketing: Campaign Analysis, Metrics, Best Practices（http://www.kaushik.net/avinash/email-marketing-campaign-analysis-metrics-practices/），还是有不少深刻的见解。

一个英文的数据挖掘资源网站：Data Mining and Analytics Resources（http://www.kdnuggets.com/index.html?lg），一位美国的研究数据挖掘的朋友推荐的，在中文的网站上没看到过到这个网站的链接，先记录到这里。

一个流氓网站：互联网分析沙龙(http://www.techxue.com/portal.php)。说它是流氓网站，是因为这个网站中我看过的文章（大概有10来篇）基本都是从别的网站上抄来的，网页上既不注明作者，也不说明出处。

《误区》读后感:

像是一本科普书，详细解释了许多常见的思维误区。基本上是在说普通大众最常见的思维误区。

作者总结常见的六个思维误区：
1：喜欢故事胜过统计数据；
2：寻求认同；
3：不大重视偶然和巧合在生活中的作用；
4：会错误地感知我们生活的世界；
5：过分简化；
6：记忆有缺陷；

第一个误区常导致不正确的推论，最常见的应该是医疗措施的效果，实际上个体的疗效不能说明问题，但是人们很容易相信周围亲友的个例，因为这是有故事的。
第二个误区导致人们忽略反对意见；
第三个误区经常导致人们误把无关的事件关联起来，比如很多体育明星的迷信行为；
第四个误区会导致人们看到自己想看到的东西；
第五个误区导致人们简单地作出判断；
第六个误区导致人们会受一些暗示，误把不曾发生的事情归入自己的记忆中。

由于存在第二个思维误区，一个不存在反对意见的群体可能做出明显错误的或者比所有个体都冒险的决定。

﻿《﻿﻿﻿﻿﻿Recommender Systems Handbook》读书笔记

《Recommender Systems Handbook》读书笔记