统计思维(实例5)——变量之间的关系

来源:互联网 发布:侠义 知乎 编辑:程序博客网 时间:2024/05/30 04:26

本章将研究变量之间的关系,如果能从一个变量的信息中得到另一个变量的信息,那么这两个变量之间就是相关的。

散点图

研究两个变量之间关系的最简单方法是散点图(scatter plot),但好的散点图的绘制并不简单。

下面绘制BRFSS调查参与者的体重与身高关系的散点图。但这个绘制结果数据都成列聚集,这是因为身高数据四舍五入到相邻的英寸,转换为厘米后,再次四舍五入。在这个转换过程中,丢失了一些信息。


图1 BRFSS调查参与者的体重与身高关系散点图,未抖动(左),抖动(右)

即使经过了抖动处理,散点图也不是展示数据的最佳方法。图中有很多重叠的点,遮盖了密集部分的数据,使离群值显得特别突出。这种效果称为饱和(saturation)。我们可以使用参数alpha解决这个问题,将图中的点显示为半透明的。


图2 经过抖动和透明处理的散点图(左)和hexbin图(右)

对于中等规模的数据集,在散点图设置透明度效果很好。但要处理规模更大的数据集,可以使用hexbin图。hexbin图将图像划分为六角形的区间,将每个区间按照其中数据点的数量进行着色。

hexbin的优点是可以很好地展示变量关系的形状,并且对于大数据集运行效率(时间效率和生成的文件大小)很高。缺点是离群值在图中不可见。

描述关系特征

散点图能让我们对变量关系有个大体了解,其他可视化方法则可以让我们更深入了解变量关系的本质。一种方法是对一个变量进行分区,绘制另一个变量的百分位数。

计算分区的过程如下:

  • 去除指定列含有nan值的数据行,对数据进行分区
  • 遍历每个分区的数据,计算其身高均值和体重CDF
  • 绘制身高对应的体重百分位数

下图展示了绘制结果,在140-200厘米,变量关系几乎是线性的。140-200厘米这个范围涵盖了超过99%的数据。


图3 一组高度分区的体重百分位数

相关性

相关性(correlation)是一个统计量,用于量化两个变量之间关系的强弱。

度量相关性的困难在于需要比较的变量通常使用不同的单位,即使变量使用相同的单位,也可能来自不同的分布。通常有两个常见的解决方法:

  • 将每个值转换为标准分数(standard score),即其偏离均值的标准差数。这种转换会产生“Pearson乘积矩相关系数”。
  • 将每个值都转换为秩,即其在所有值的排列表中的索引。这种转换会产生“Spearman秩相关系数”。

协方差

协方差(covariance)可以度量两个变量共同变化的趋势。如果我们有两个序列X和Y,那么序列中的值与均值的偏差分别为:


协方差是这些乘积的均值:


其中n为这两个序列的长度(两个序列的长度必须相等)。

如果学过线性代数,会发现Cov是两组偏差的点乘积除以其长度。因此,如果两个向量相同,则协方差值最大;如果两个向量正交,则协方差为0;如果两个向量方向相反,则协方差为负数。

Pearson相关性

协方差在一些计算中非常有用,但其含义很难解释,因此很少作为摘要统计量。解决这个问题的方法之一是将偏差除以标准差,得到标准分数,然后计算标准分数的乘积:

其中Sx和Sy分布是X和Y的标准差。

这些乘积的均值为:


或者,可以通过分解​Sx和SyS_Y改写标准差:


这个公式以统计学家Karl Pearson的名字命名,称为Pearson相关性。Pearson相关性取值介于-1~+1之间(包含端点)。

\rhoρ的大小表明了相关性的强弱程度,如果\rhoρ为1或-1,两个变量完全相关。

非线性关系

Pearson相关性只是度量了线性关系,如果变量之间存在非线性关系,那么\rhoρ对变量相关性强弱的估计就可能是错误的。

下图摘取自Wiki,展示了数据集的散点图和相关系数。


图4 各种相关性的数据集示例

第一行展示了不同线性相关性的数据集,第二行展示了具有不同斜度的完全相关,第三行展示了变量非线性的相关性。

Spearman秩相关

如果变量之间的关系是线性的,而且变量大致符合正态分布,那么Pearson相关性能很好地说明相关性的强弱,但离群值会影响Pearson相关性的稳健性。Spearman秩相关能缓解离群值以及偏斜分布的影响,也可用于描述变量的相关性。要计算Spearman相关性,必须计算每个值的秩,即该值在排序样本中的索引,然后计算这些秩的Pearson相关性。

相关性和因果关系

如果变量A和变量B相关,那么有3种可能:A导致B,B导致A,或其他因素导致A和B。这些解释称为“因果关系”。但相关性并不意味着因果关系。

证明因果关系的方式有:

  • 时间 如果A在B之前发生,那么A可能导致B,而B不可能导致A。
  • 随机性 如果将一个大型样本随机分为两组,计算任意变量的均值,那么两组结果的差别应该很小。

正是这些想法催生了随机对照试验。在随机对照试验中,试验对象被随机分配到两个(或多个)组:试验组和对照组,试验组接受某些干预,对照组不接受干预。

在某些情况下,还可以使用回归分析来推导因果关系,这将在后文介绍。


参考文献:

    统计思维. Allen B.Downey. 金迎 译


原创粉丝点击