结合协同过滤和个性化AGENT的增强推荐

来源：互联网发布：一个暑假变漂亮知乎编辑：程序博客网时间：2024/06/06 19:38

摘要

信息过滤代理和协同过滤都是旨在通过甄别哪些事物是用户需要且有价值的以减轻超负荷的信息给用户所带来的负担。

信息过滤（IF）着重点在于物件内容和个人用户的兴趣描述的发展的分析。

协同过滤（CF）着重点在于识别除该个体以外的拥有相近喜好的用户和利用他们的选项去甄别物件。

每一个方法都有其优势以及局限性，因此联想到两个方法可以相互结合。这篇论文展示的是协同过滤框架可以用来联合个人信息过滤代理和一个群体的用户的意见去进行推荐，从而给出比其他代理和用户推荐的更优越的推荐结果。同时这篇论文也展示了利用协同过滤去创造一个一组代理的结合体，从而给出比单个代理或者其它联合途径更好的推荐结果。

基于上述会得到一个关键的结果，便是用户可以避免选择其他的代理，同时用户可以用它们让协同过滤框架选出最适合的一个。

简介

推荐系统辅助个人或团体缓和超负荷信息带来的冲击。

信息过滤推荐着重于物件相关的句法和语义内容，从而判断哪一个更像是对用户有用有意义。协同过滤推荐是使用其他用户的意见去预测这个物品对于这个团体中的每个个体的价值。例如：在电影推荐领域，其内容过滤应该是基于电影的流派（恐怖、喜剧、浪漫等）和演员阵容（伍迪艾伦、斯蒂文斯皮尔伯格，巴迪米德尔）。恰恰相反，协同过滤完全不关心电影的流派以及演员阵容，而是去研究一群志趣相投的人推荐“篮球梦”、同时不建议“阿呆和阿瓜”。

在这个工作中，我们检验了协同过滤、个人信息过滤代理和他们相互结合的有机体去制作成为一个更好的推荐系统。
接下来的这个部分是使用现有的方式来缓和信息过载，包括各种各样的基于内容和协同的方法，同时给大家展现我们的使他们更有效的结合在一起时的模型。往下的部分则是呈现我们的实验设计以及实验结果。
最终我们的结论是基于我们对结果所带来的效应的观察。
注明：user profile通篇译为用户画像

信息过剩：问题与策略

当今时代，每天中都有新的书本、小说文章、网页和电影产生。当这些新的事物一次又一次的冲击着我们的注意力，我们迅速的沦为不停的寻找可以甄别最有价值、最感兴趣、最有意义或者最有趣味的物件。这些物件正是我们愿意花费我们的时间和金钱的。
以前，人们已经对大量的信息适应得很好了。我们的感官会机敏调整从而注意到事物的变化和不同于寻常。我们交流的能力让我们有能力可以协同合作解决大型的问题。同时，我们已经进一步掌握了一个卓越的能力，那就是快速的做出判断。确实，我们可以通过一本书的封面、一篇文章的标题或者摘要和一部电影的预告或者海报来做出相应的分类。
如今，我们也发现制作新的物件（发布新的文章等）变得越来越简单。正当计算机、交流能力和因特网的出现，让所有人可以更轻易的向大群体宣讲，我们甚至发现我们最先进的过滤能力已经应付不了了。
为了对过剩信息有所回应，我们已经竭尽全力设计以及制作更有用的推荐系统（推荐系统是指：可以帮助用户快速甄选出他们感兴趣的物件）。这个项目是借鉴一个叫MovieLens的电影的推荐系统。通过用户对这个系统推荐的电影的反馈进一步推荐其他电影给用户。
通常来讲，现如今有三种不同的技术被用来应付过剩信息。每一个技术都仅仅着重于一种特定的问题集合上。
信息检索着重于涉及有一定意义的瞬时价值的问题（因素）例如，这些电影是伍迪艾伦导演的。信息过滤着重于涉及对新晋的内容进行目录式的分类，例如新上映的斯蒂芬斯皮尔伯格导演的电影（会考虑去看），而一切新上映没有英文配音的或者英文字幕的电影（而不去看）协同过滤的方法则侧重于回应一下两个问题：
那种物件（从整体或者个案）是我应该关注的？
我会有多喜欢这个特定的东西呢？
上述每一个技术都会出现在一个有效的推荐系统中。

信息检索

信息检索系统是用于通过用户反馈他们选择一个可以实现他们对特定信息的需求有关联的喜好的物件问题。这要求使用全部篇幅的画像或者画像的摘要以编入索引之中。
对于无文件可言的物品（例如：电影）而言IR系统将电影种类、关键词、演员和导演等编入进入索引。IR系统大体上用于瞬时喜好问题，例如在图书馆检索一个专题。（贝尔金和夸福特在1992年）英特网搜索引擎是个十分流行的IR系统，而因特网电影数据库（(www.imdb.com）保存着大量的对IR问题和电影的主持文件。
一个前沿的IR系统作为一个用于识别特定电影的一种机制，这种机制一是可以反映用户的看法，二是可以缩小给他们推荐电影的范围。举一个例子，MovieLens让用户对电影选择一些特定的要求，例如上映的时间区间、电影的种类（喜剧类或文艺篇等）或者说是电影的集锦。但由于IR技术除了用户指定的种类之外，没有抓住任何的用户行为信息，因此IR技术在实际的推荐行为中有着较小的价值。
因此，我们不会在接下来的文章中做更深一步的分析讨论。

信息过滤

信息过滤系统需要用户需求和用户喜好呈篇幅提供。这个最基本的系统需要用户自己人为的创建他们的画像或给予绝对有限的辅助。对于这类简单的系统，我们看几个例子：电子邮件中的一个用于过滤掉广告的“删除文件”的邮件过滤软件，他根据邮件的发件人和一个在当某位著名人物的新书或者专辑发布时的产生公告的一种新产品公告服务器。更为先进的IF系统会根据对用户喜好的学习构建一个画像。
这个智能体有着广泛的用途，其中包括：用于电子邮件和世界性新闻组网路新闻过滤的Maes代理（1995）、使用基于用户先前的举措用于分类、处理和推荐画像的机器学习Letizia (Lieberman 1997)。相似的，Ripper系统已经被用于分类邮件了(Cohen 1996)、也有其他的有同种功能且用到机器学习技术和关键词频率的方法（Boone 1998）。
信息过滤技术在推荐系统中有着核心地位。IF技术给用户喜好构建了一份画像。这个设计是特别的有价值的特别是当一位用户遇见一个前所未见（没有被记录not rated）的事件。不用去等待去看一个不喜欢伍迪艾伦的粉丝这部电影是伍迪艾伦导演的就可以帮其决定了，或者一个讨厌恐怖片的用户可以简单的（毫不后悔的）滤过一个恐怖片。IF技术还有一个很好的特性：在系统运作的过程中不需要其余的用户提供信息，更不用说有着相同喜好的用户提供信息了。这样看来IF技术是很有效的，但是它也存在一些缺点，包括需要一长串的内容信息，也不会在偶然事件中提供信息。确实，一个专门寻找伍迪艾伦电影的服务器，是不会发现任何一部与伍迪艾伦无关的电影的，这正合伍迪艾伦粉丝的意思。

协同过滤

协同过滤系统对用户对物品的评价构建了一个数据库。该系统通过这些数据库寻找有着相同评价建议的用户（例如……，那些特别相关的），并且结合其余的有着相似意思的个体的意见对这个用户对这个物品的感想做出预测。

例如，如果Sue和Jerry喜欢的电影有很多相同的，而Sue喜欢看Titance，但是Jerry没有看过，则系统就会将Titance推荐给Jerry。

最早的CF系统Tapestry（(Goldberg et al. 1992）需要用户给出明确的举措去检索计算衡量等级。例如GroupLens (Resnick et al. 1994) (Konstan et al. 1997) 的自动化CF系统不需要用户做实际事情便可以给出预测。

之后的像Ringo (Shardanand and Maes 1995)和Bellcore视频推荐 (Hill et al. 1995)系统逐渐分别在音乐视频推荐方面应用广泛。

更靠近今天一些，一些推荐系统开始使用观测性的指标，这些系统获取用户喜好通过用户的行为而不是用户去衡量物品，给吃一定的等级 (Terveen et al. 1997)。

再过去的几年，有很多网站开始在不同的领域使用CF推荐，例如书本、百货、艺术、广告和信息。

协同过滤技术是推荐系统中重要的一部分。CF技术一个很关键的优势是该系统不用考虑这个物件内容被推荐。不同于地图的使用者需要知道内容属性或者人口统计资料，CF技术对待每一个物件和用户都是相对独立的。

实际上，现在很容易新的感兴趣的事物仅仅因为别人喜欢它。同时由于匿名或者未知用户的贡献也很简单提供出优质的推荐。举个例子：很多观影者不是很想观看某个演员的电影或者某个种类的电影，比如说“一部让我感觉很好的电影”或者“一部时髦有趣的电影”。与此同时，CF依靠的是人们的标准会是一个很重要的缺陷。为了使一个CF系统运行成功妥善，一些用户必须对它们每个都进行评估，即使这样，新的物件会一直都不会被推荐，直到有用户对其进行评估。这些局限性，通常被称为稀有或者头等问题，因为他们给用户进行对电影的模糊搜索和推荐新上映的电影（因为没有人有机会评估这类电影（模糊））

混合推荐系统

几种推荐系统可以进行组合在一起，从而避开他们的局限性。Fab包含有使用信息过滤技术的用户兴趣画像，但是使用协同过滤系统去识别有着相同喜好的用户画像。之后他可以根据用户画像推荐文件。

Basu, Hirsh, and Cohen 在1998年将Ripper机器学习系统与内容数据和训练数据结合在一起生成更好的推荐。对协同过滤进行研究的人员提议使用这个技术因为使用IF画像是一个低效的运作。举个例子，当没有特定的电影信息的时候，可通过请求对导演和演员预测，当CF系统共不能提供高质量的推荐的时候，可以使用双系统和使用IF画像。
在早期的研究中，在1998年，Sarwar展示的是一个简单持续评估的服务器，比如，当一个可以在Usnet新闻中写很多篇幅的可以成为在协同过滤组织中很有价值的一员。在那项研究中，他们展示了作为协同过滤系统中的一员，爬虫（filterbots）评估机器人是怎么帮助那些同意提供更多评估信息的用户，这样一来推荐便可实现。
对于那些不同意爬虫的用户来说，CF框架会关注到低偏好相关的同时也不会使用这个评估结果。
这个工作从三个方面拓展爬虫的影响。第一，我们使用一个更加先进的一组爬虫，包括对于个人用户来说很个人化的学习服务器；第二，我们将这个服务器提供给小群体，包括使用CF去给个人用户服务；第三，我们同时评估多种多样的爬虫。
此外，我们调研其余的可以替代CF的混合系统。我们证明出CF是一个对于集成服务器、联合服务器和人们有用的框架。

#这一部分先到这里，不要显得单篇博文冗长

给大家预告一下：

阅读全文

1 0