每天学点推荐系统（一）

来源：互联网发布：15 16赛季英超数据编辑：程序博客网时间：2024/05/04 02:17

《Toward the Next Generation of Recommender Systems_A Survey of the State-of-the-Art and Possible Extensions 》论文学习笔记（1）（如需要此文章可留下邮箱）

论文概要：这篇论文主要专注介绍目前推荐系统领域的三种推荐方法：分别是基于内容，协同过滤，组合推荐。同时也介绍了在使用推荐方法时一些局限性，并讨论了一些可以提高推荐效率的改进方法。

背景介绍：尽管推荐系统的根源可以追溯到认知科学、近似性理论、信息检索、预测理论、当然也与管理科学和市场中消费者选择模型有点相关。推荐系统呈现为单独的研究领域是从1990年开始的，那时研究者开始专注于依靠精确地分级结构（譬如1级到5级）形成推荐结果。推荐系统从1990年的第一篇关于协同过滤的论文发表开始，其研究领域逐渐变得越来越重要了。而到现在许多人还保持这么高的研究热情，主要是因为里面还有许多问题等待这人们去解决，同时它的现实应用能帮助用户处理过量的信息和给予其个性化推荐。譬如亚马逊的书籍推荐。尽管有许多优点，但目前的推荐系统还是需要更多的提高（方法的效率和适用性），譬如采用更好的方法去代表用户行为和被推荐的物品信息，更高级的推荐模型方法，整合更多的上文信息到推荐流程中，使用合理的满意度分级等等

尽管推荐系统的根源可以追溯到认知科学、近似性理论、信息检索、预测理论、当然也与管理科学和市场中消费者选择模型有点相关。推荐系统呈现为单独的研究领域是从1990年开始的，那时研究者开始专注于依靠精确地分级结构（譬如1级到5级）形成推荐结果。在最常见的构想中，推荐问题是通过评估物品分级（用户所不知道的）来解决的。最常见的，这种评估是基于用户所给的分级和以前所给的描述信息。一旦我们能评估出还未平级的物品的评级（对于被推荐用户），我们就能推荐给用户评级高的物品。

常见的推荐过程：设C为用户集合，S为推荐物品（以书籍为例）集合（集合可以很大很大几百几千都可以）。设u为用于计算书籍s对用户c的效用的集合。然后对于每一个用户c，我们想选择一些书籍s从而测定书籍s对于用户c的效用。在推荐系统中，效用常常被等级制度（所代替即表示一个用户对于一个产品的喜欢程度)代替。每一个用户集合中元素可以被定义为属性，包括各种用户的特征，譬如年龄，学历，收入等。物品集合也是相似的。效用集合由于一般不能直接获得需要利用用户集合和物品集合计算才能获得。

基于内容的方法：以电影推荐系统为例，为给用户推荐电影，基于内容推荐系统会努力去理解用户以前所有评价的电影最高的共性（如演员，导演，流派，主题），然后，只有那些和用户所看过电影的共性相似度较高的电影才会被推荐。其中所谓的共性可以用特征或关键词来表示，而获取关键词权值最好的方法之一就是ＴＦ－ＩＤＦ：　设Ｎ为要被推荐书籍总数，关键词k(i)出现在其中n(i)本书籍中，f(i,j) 表示关键词k(i)在书籍d(j)中出现的次数；则 TF（i，j）=f(i,j)/max f(z,j) 其中 max f(z,j)表示在书籍d(j)中出现次数最多的关键词. IDF(i)=log(N/n(i)); 根据以上俩个可得出关键词k(i)在书籍d(j)的权值定义 w(i,j)=TF(i,j)*IDF(i)。局限性：1.提取特征时，会出现问题，当为多媒体数据（声音，图像）时就很难提取特征 2.当俩片文档使用相同的特征集合时，他们便无法区分了。当然这种方法也无法解决过度专门化和新用户问题。