机器学习基础(三十三)—— 皮尔逊相关度评价

来源:互联网 发布:java web acl权限控制 编辑:程序博客网 时间:2024/05/29 10:31

除了欧几里得距离,还有一种更复杂一些的方法可以用来判断人们兴趣的相似度(相似一定发生在两个之间)。那就是皮尔逊相关系数,该相关系数是判断两组数据与某一直线拟合程度的一种度量。它在数据不是很规范(normalized)的时候(比如,某影评者对影片的评价总是相对于平均水平偏离很大时),会倾向于给出更好的结果。

如果某人总是倾向于给出比另一个人高的分值,而二者的分差又始终保持一致,也即二者呈线性关系,则会得到较高的皮尔逊相关度。

ρX,Y=cov(X,Y)D(X)D(Y)

对应与 numpy 库中的 np.corrcoef() 函数。

np.corrcoef(X, Y)[0][1]
0 0