相关系数 Correlation Coefficient 的理解

来源:互联网 发布:蜂鸟众包网络异常 编辑:程序博客网 时间:2024/05/22 06:51

相关系数 Correlation Coefficient


散点图的拟合图

这张图描绘的是电影的评分跟时间的关系,我们可以借助这样图通过三个步骤来解释相关系数。通过这三个步骤我们可以直观的判断相关系数的大小。
  • 对数据进行拟合

拟合后

所谓拟合,就是找一条能能最接近的去描述图中所有点,拟合好后就是图中绿色的线

  • 确定斜率的正负

拟合线有了以后,我们需要知道拟合线的斜率和相关系数的关系:
上图中,绿线的斜率是正的,相关系数就介于[0,1]之间。也就是说,随着时间的增长,电影的评分在升高,所以评分和时间是正相关的关系。

这里写图片描述

相反,如果拟合线的斜率是负数,则相关系数介于[-1,0]之间。就是说随着时间的增长,电影的评分会越来越低,就是评分和时间是负相关的关系。

这里写图片描述

这种情况下,随着时间的增加,电影的评分上下波动,但是总是在一个值附近波动,说明评分和时间没有关系。也就是相关性为0,这时候拟合线的斜率是0.

当然,这里只能说拟合的线的斜率为正,则正相关;斜率为负,则负相关;斜率为0,则不相关。相关系数的值介于[-1,-1]之间。但是并不是说斜率越大,相关性越大,具体怎么判断相关系数的大小要看下面。

  • 相关性大小的判断

这里写图片描述

首先,看散点在Y轴上的分布,如上图的黄色线所示,再看散点距离拟合线的情况,如上图绿色线所示。

相关系数=各点在Y轴分布/各点到拟合线的距离

这里写图片描述

分子越大,分母越小,则相关系数越大。上图中,各点到拟合线的距离差不多,但是左边的各点在Y轴分布较大,则左边的相关系数大于右边。

相关系数的正负大小是两个不同的、没有关系的概念。正负表示相关性是正相关还是负相关,和相关性的大小没关系。而大小则只负责表示相关性的大小,和正负无关。

0 0
原创粉丝点击