对Mahout_"推荐算法"的初步认识(5)_研讨篇

来源:互联网 发布:java类声明 编辑:程序博客网 时间:2024/06/05 10:37

声明:本博客是在鄙人学习中遇到的一个问题,欢迎大家积极参与讨论,期望大神指导!

在研究利用余弦相似度计算基于用户(user-based)的推荐算法实现上,看到吉林大学杨博(博导)老师发表的《推荐算法综述》文章中对于该算法的描述中,提到了这样一个举例:

------------------------------------------------------------------------------------------------------------

首先给出用户-项目评分矩阵:

User-Item ratings matrix I1I2I3I4I5I6U143?   U2322442U3  2 32U44335 2U524 1 5-------------------------------------------------------------------------------------------------------------

如上表格所示,每一个用户User都有6维的数据Item,题目要求利用余弦相似性计算基于用户的推荐算法,来计算U1对I3的评分。

注释一下:用pij表示表格中用户Ui对项目Ij的评分。(为了便于描述和分析,这个pij的定义和杨老师文中的规定是一致的)

(1)杨老师的计算过程:

用余弦相似度计算出U1与其他用户的相似度

sim(U1,U2) =【(p11*p21)+(p12*p22)】 / 【根号下(p11平方+p12平方)*根号下(p21平方+p22平方)】=【(4*3)+(3*2)】/ 【根号下(16+9)*根号下(9+4)】= 0.998

同理可得:sim(U1,U3) = 0,sim(U1,U4) = 1,sim(U1,U5) = 0.894

从而可以计算p13 = 【sim(U1,U2)p23+sim(U1,U3)p33+sim(U1,U4)p43】/【sim(U1,U2)+sim(U1,U3)+sim(U1,U4)】= 【0.998*2+0*2+0.894*3】/【0.998+0.894】= 2.5 (确切数值是2.4725)

(2)我的分析:

我刚刚开始研究这个领域,作为菜鸟确实不太懂,但是抱着严谨的学术态度我还是反复查阅了各种资料。根据我的理解,我认为余弦相似性的计算是基于对多维空间中两个向量的夹角来确认两个向量的相似性的,而在杨老师的计算中,明显忽略了I3到I6的数据,这是我十分困惑的!因为其一,根据定义,I1~I6描述了一个用户在6维空间的向量(像U1那样空缺的位置我会认为它I4~I6数据是0),那么如果像杨老师计算的那样,U1和U2就被视为了两个二维空间,也就是平面上的向量,这样计算出来的数据显然和6维空间计算出来的两个向量之间的夹角是不同的,那么得到的相似性就会有明显的误差。而其二,懂得概率论和数理统计的人都明白,数据越多计算越准确,抛弃了三分之二的数据很可能给计算结果带来巨大误差。

(3)我的计算过程:

sim(U1,U2) =【(p11*p21)+(p12*p22)+0+0+0】 / 【根号下(p11平方+p12平方)*根号下(p21平方+p22平方+p41平方+p51平方+p61平方)】=【(4*3)+(3*2)+0+0+0】/ 【根号下(16+9)*根号下(9+4+4+16+16+4)】= 0.495

同理可得:sim(U1,U3) = 0,sim(U1,U4) = 0.630,sim(U1,U5) = 0.836

(这里我说明一下,我认为是没有必要算sim(U1,U5)的,因为U5在 I3项目上没有评分,可以直接忽略)

从而可以计算p13 = 【sim(U1,U2)p23+sim(U1,U3)p33+sim(U1,U4)p43】/【sim(U1,U2)+sim(U1,U3)+sim(U1,U4)】= 【0.495*2+0*2+0.630*3】/【0.495+0+0.630】= 2.6 (确切数值是2.5625)

(4)综述:

通过对上面问题的描述和展示的计算过程,相信大家已经明白了我遇到的困惑。通过上面的数据我们可以看到,根据2维向量计算出来的相似度和6维向量计算出来的相似度确实有不同,而且对最终的推荐算法的结果产生了影响,一个是2.4725,一个是2.5625,我们可以设想到,如果词频向量的维数更多,那么很有可能在这两种计算方法中得到的结果产生更大的差距。我不太理解为什么杨老师在文章中可以将后面的维数忽略掉,而杨老师的文章中并没有提及这个问题,所以我很困惑,希望得到大家的分析和指导。

(5)声明:

对Mahout下推荐算法这一块的研究我是这前天刚开始的,个人想法十分不成熟,仅仅是学术讨论,如果我对余弦相似性的理解和运用有什么问题,欢迎大家提出批评和指导。

如果有任何资料也欢迎发邮件给我:1527606437@qq.com


尊重版权!本文参考文献有:

1、《推荐算法综述》 http://www.doc88.com/p-980349680491.html


0 0
原创粉丝点击