Coursera推荐系统课笔记之推荐系统分析框架

来源:互联网 发布:c语言socket编程小例子 编辑:程序博客网 时间:2024/06/06 10:03

        找点空闲,找点时间,百忙之中,写篇博文。

        废话少说,先来吐槽两句Joseph A Konstan 自然是很厉害的,虽然我确实不知道他的光辉历史。吐槽只基于以下几点:

              1、视频没截短,too long ,单个视频过长。现在主流是15分钟以内的样子。

              2、语速太慢,这个还好可以加速。然后,可能是因为课程本质所致,举了很多例子,太过费时。

              3、吐槽完毕,回归正题。得意

       第一周的视频中,第一讲讲历史,没字幕,能大致听懂已经让我兴奋异常了,这个笔记难指望了。第二讲讲课程安排,没什么可留恋的。第三四讲是配置环境,上一博文已经写了。最后一讲,带我们浏览了亚马逊,详细地把亚马逊多个主要(也可能就是全部)的推荐系统给分析了一遍。

        各位看官要问了,那他是怎样分析亚马逊的推荐系统的呢(易中天的声音偷笑)?那还得看第五、第六两讲,所谓磨刀不误砍柴工,不对,所谓庖丁解牛,游刃有余,盖因,盖因,也没啥好盖因的,就是因为那一头头的牛在他眼中,并不是一个个美女羡慕,而是“未尝见全牛也”,整头牛的结构已经完全印刻在他的潜意识中。所以,让我们来看看,在Konstan 教授眼中,推荐系统这头牛的“结构”是怎样的。


      推荐系统分析框架 Analytical Framework of Recommend System

        包含8个要素,domain(推荐领域)、purpose(目的)、context(推荐背景)、whose opinions(推荐者)、personalization level(个性化或定制化层次)、privacy and trustworthiness(隐私性和可信度)、interface(接口即入与出)、algorithms(推荐算法)。且看一一道来。


        1推荐领域 domain —— 什么被推荐

        易于理解,推荐的是:

         (1)信息、新闻类。主要就是门户网站和微博里的热门新闻,比如这两天最受大家关注莫过于李亚鹏王菲离婚一事了,让多少人又不相信爱情了。(敲打哪来这么多次不相信爱情)

         (2)产品、厂商类。

         (3)寻找相似品味的人。和朋友聊天时,被他天马行空的想像所打败大笑,也许一个更加细心、细致、贴心的相亲推荐系统将出于他手偷笑

         (4)一个序列,比如音乐列表和书单。书单见得多,各大名人、各大高校、各大畅销书,华尔街都不知道出过几次推荐书单了。

       有时推荐的领域会有特殊的性质和需求。

        (1)新商品的推荐问题,大家对它都还没有了解,如何推荐,就是所谓“冷启动”问题。

        (2)还有些像食品或音乐此类的物品,是允许重复推荐的,也许是一直爱好,也许换换口味(希望不要是重口味)。而书本等物品,你多半只会买一次。


        2目的 purpose —— 为什么推荐

         在看视频之前,我只会想到销售这一点。其实有3种:

          (1)销售或信息获取。

          (2education of user。咋看之下,education,教育,不可能啊。那到底是什么呢,其实是指像地图公交路线那种的指导或建议。比如,建议你去哪儿、建议以什么样的线路或方式去旅游等等。

          (3)围绕被推荐的事物,组建出一个用户的群体,把喜爱这一事物的人们聚在一起。

          话说,我在做第一周作业时,选择分析豆瓣的推荐系统,在确定这个目的时,就需要考虑了。看似推荐出来的书或电影或音乐,不应该就是让我去购买、观看的吗?但是,豆瓣本质还是一个web 2.0社交网络。所以,我选了第三条。


        3背景 recommend context

        也就是推荐活动发生的一些情况和限制,一是用户当时的活动,是无聊呢,是寂寞呢,还是空虚呢;二是这个背景会对推荐产生什么样的限制。就比如,刚听完一首《吻别》的你,是想继续听李宗盛的《领悟》呢,还是听春哥的《我的心里只有你没有他(她?)》大笑。又或者你刚花了重金买了一台性能很炫的游戏本,那么就该根据你的游戏历史记录给你推荐游戏了。


        4推荐者 whose opinion

        可以肯定的是,推荐者的身份、水平 make a big difference。推荐者是权威的专家教授,徒惹人笑的砖家叫兽呢,是平平常常的大众呢,还是和你爱好、品味相似的人们。

    这点,真的很重要。


        5个性化层次 personalized level

        见多了各大网站上,五花八门的推荐,你有没有想过其实里面还是有很多层次的。

        是通用的非个性化非定制推荐 Non-personalized recommend?就像微博里列出的最热门的新闻、事件。它并不关注你是否对此感兴趣。它和个性化推荐的关系好比门户网站和搜索引擎,引导你找到大众喜欢的事物,你再摸索出自己喜欢的事物。

        是基于统计的有目标群体的推荐Demographic?就好像买尿布的外国奶爸们顺手买的酒。难以想像把房地产的传单发给小学生的情形,也很难想像向年轻人推荐太极养生的活动,哪怕,哪怕我自己是很想学太极。

        是只针对你当前活动而作出的推荐Ephemeral?就像豆瓣每本书的网页中间都会推荐其他书本一样,标准格式“喜欢这个X的人们也喜欢……”。

        是分析你长期记录得到的推荐Consistent?亚马逊在这方面是最著名的了,它会根据你的以往的犯罪记录,NO,消费记录,给你推荐一些物品。


        6、隐私和可信度 privacy and trustworthiness

       这年头,大家都觉得自己快没隐私了,那推荐系统知不知道我们的隐私呢?它知道我们的个人信息吗?或是需要让每个人有个特定的身份identify吗?另外,我们可以否认它为我们总结的偏好吗?

       又有多少可信的呢?会不会有内在的偏见,就像这家店的导购正常情况下不会给你推荐其他店的商品。会不会有恶意的、非真实的操作,比如网络水军(豆瓣上电影还没上映,分数就出来了,高分低分都水军,一堆捧一群黑)。

       说到网络水军,那就要考虑推荐者的信誉了。名气大的人总不能信口雌黄、信口开河了吧?也不一定,这年头转发只是一个鼠标轻轻一点的动作。而畅销书不挂上好几个人的名头,作者都不好意思说他在写书。


        7接口 interface

        看完视频后,觉得这确实是个很计算机化的说法。也就分成了输入输出。

        输入就是,它有没有明确地问你的观点,让你进行评分或评论,还是默默地记录了你的购买或浏览行为(单相思以及聪明的追求都经常这样吧?)。

           输出则分几类:

           (1)预测,是得到一个特定的评分结果?

           (2)推荐,是得到一个或一堆推荐的事物?

           (3)过滤,是过滤一列表的搜索项?

           另外,输出结果是自然的互动,还是明确地说“我给你推荐如下东东”。

      好吧,时间有点晚了。为了身体健康,我现在坚持早睡。剩下第八项推荐算法,正好原视频也在此分成了两个部分,那我就在此结束了。整篇也就是个笔记或者叫翻译的东东,自己的观点、体会很少。望各位大大多多拍砖——帮我把砸过来的砖拍飞。在下会知耻而后勇,啊,不对,会再接再厉,争取多写笔记。哪怕因为懒了,连下一篇都不写了。这种情况也是有可能的。尴尬


      再说说这个视频之后的作业,就是找个网站,从中找出两个不同的推荐系统,当然需要有算法等多个方面不同,然后根据上述的分析框架,根据这八个要素,写一篇分析报告。


      也会觉得,开发推荐系统为什么要分析这样啰嗦的东西。道理其实就在最开始说的庖丁解牛这故事里。我自己也挺懒的,哪怕已经把作业写完了,花费了大把的时间,也当作是练练英语写作能力了。

原创粉丝点击