基于物品的协同过滤中,余弦相似度、皮尔森系数、修正余弦相似度三者的区别

来源:互联网 发布:淘宝 真货 编辑:程序博客网 时间:2024/05/16 11:40

假设数据如下图,其中行表示用户,列表示评级项目:


我们先看一下三道公式

余弦相似度(Cosine-based Similarity):


皮尔森系数(Pearson correlation):


修正余弦相似度(Adjusted Cosine Similarity):


其中Ru,i表示用户u给物品i的评级


1.余弦相似度与其余二者的比较

    余弦相似度计算时采用评级项目item i与item j中所有用户的信息,即包括有填写评级与无填写评级(无填写评级的置0)的所有用户;

    皮尔森系数与修正余弦相似度中U表示所有对i和j共同进行过评级的用户组成的组合;

    总结:余弦相似度与其余二者在计算式选择的用户集合不同 。


2.皮尔森系数与修正余弦相似度的比较

   从公式上看,这二者的区别就在于之间的差别。

    皮尔森系数中表示对i与j共同评级过的所有用户,他们对i的评级的平均值,即计算皮尔森系数时提取一个列为i与j,行为对二者共同评级的用户组成的表格,并计算列i的平均值。

     而修正余弦相似度中表示的是用户u已评级项目的平均值,即计算时未被评级的项目不采取置0而是直接忽略。

     总结:皮尔森系数与修正余弦相似度之间的区别在于中心化的方式不同。


参考文章:

1.http://www.zhihu.com/question/21824291

2.http://www10.org/cdrom/papers/519/node11.html

3.http://guidetodatamining.com/assets/guideChapters/DataMining-ch3.pdf


如果有错误或建议请指教,O(∩_∩)O谢谢

0 0
原创粉丝点击