统计思维（实例5）——变量之间的关系

来源：互联网发布：侠义知乎编辑：程序博客网时间：2024/05/30 04:26

本章将研究变量之间的关系，如果能从一个变量的信息中得到另一个变量的信息，那么这两个变量之间就是相关的。

散点图

研究两个变量之间关系的最简单方法是散点图（scatter plot），但好的散点图的绘制并不简单。

下面绘制BRFSS调查参与者的体重与身高关系的散点图。但这个绘制结果数据都成列聚集，这是因为身高数据四舍五入到相邻的英寸，转换为厘米后，再次四舍五入。在这个转换过程中，丢失了一些信息。

图1 BRFSS调查参与者的体重与身高关系散点图，未抖动（左），抖动（右）

即使经过了抖动处理，散点图也不是展示数据的最佳方法。图中有很多重叠的点，遮盖了密集部分的数据，使离群值显得特别突出。这种效果称为饱和（saturation）。我们可以使用参数alpha解决这个问题，将图中的点显示为半透明的。

图2 经过抖动和透明处理的散点图（左）和hexbin图（右)

对于中等规模的数据集，在散点图设置透明度效果很好。但要处理规模更大的数据集，可以使用hexbin图。hexbin图将图像划分为六角形的区间，将每个区间按照其中数据点的数量进行着色。

hexbin的优点是可以很好地展示变量关系的形状，并且对于大数据集运行效率（时间效率和生成的文件大小）很高。缺点是离群值在图中不可见。

描述关系特征

散点图能让我们对变量关系有个大体了解，其他可视化方法则可以让我们更深入了解变量关系的本质。一种方法是对一个变量进行分区，绘制另一个变量的百分位数。

计算分区的过程如下：

去除指定列含有nan值的数据行，对数据进行分区
遍历每个分区的数据，计算其身高均值和体重CDF
绘制身高对应的体重百分位数

下图展示了绘制结果，在140-200厘米，变量关系几乎是线性的。140-200厘米这个范围涵盖了超过99%的数据。

图3 一组高度分区的体重百分位数

协方差

协方差（covariance）可以度量两个变量共同变化的趋势。如果我们有两个序列X和Y，那么序列中的值与均值的偏差分别为：

协方差是这些乘积的均值：

其中n为这两个序列的长度（两个序列的长度必须相等）。

如果学过线性代数，会发现Cov是两组偏差的点乘积除以其长度。因此，如果两个向量相同，则协方差值最大；如果两个向量正交，则协方差为0；如果两个向量方向相反，则协方差为负数。

Pearson相关性

协方差在一些计算中非常有用，但其含义很难解释，因此很少作为摘要统计量。解决这个问题的方法之一是将偏差除以标准差，得到标准分数，然后计算标准分数的乘积：

其中Sx和Sy $^{}$ 分布是X和Y的标准差。

这些乘积的均值为：

或者，可以通过分解 $^{ Sx}$ 和Sy $S_Y$ 改写标准差：

这个公式以统计学家Karl Pearson的名字命名，称为Pearson相关性。Pearson相关性取值介于-1~+1之间（包含端点）。

$\rho$ 的大小表明了相关性的强弱程度，如果 $\rho$ 为1或-1，两个变量完全相关。

非线性关系

Pearson相关性只是度量了线性关系，如果变量之间存在非线性关系，那么 $\rho$ 对变量相关性强弱的估计就可能是错误的。

下图摘取自Wiki，展示了数据集的散点图和相关系数。

图4 各种相关性的数据集示例

第一行展示了不同线性相关性的数据集，第二行展示了具有不同斜度的完全相关，第三行展示了变量非线性的相关性。

Spearman秩相关

如果变量之间的关系是线性的，而且变量大致符合正态分布，那么Pearson相关性能很好地说明相关性的强弱，但离群值会影响Pearson相关性的稳健性。Spearman秩相关能缓解离群值以及偏斜分布的影响，也可用于描述变量的相关性。要计算Spearman相关性，必须计算每个值的秩，即该值在排序样本中的索引，然后计算这些秩的Pearson相关性。

统计思维（实例5）——变量之间的关系

散点图

描述关系特征

相关性

协方差

Pearson相关性

非线性关系

Spearman秩相关

相关性和因果关系