统计思维(实例5)——变量之间的关系
来源:互联网 发布:侠义 知乎 编辑:程序博客网 时间:2024/05/30 04:26
本章将研究变量之间的关系,如果能从一个变量的信息中得到另一个变量的信息,那么这两个变量之间就是相关的。
散点图
研究两个变量之间关系的最简单方法是散点图(scatter plot),但好的散点图的绘制并不简单。
下面绘制BRFSS调查参与者的体重与身高关系的散点图。但这个绘制结果数据都成列聚集,这是因为身高数据四舍五入到相邻的英寸,转换为厘米后,再次四舍五入。在这个转换过程中,丢失了一些信息。
图1 BRFSS调查参与者的体重与身高关系散点图,未抖动(左),抖动(右)
即使经过了抖动处理,散点图也不是展示数据的最佳方法。图中有很多重叠的点,遮盖了密集部分的数据,使离群值显得特别突出。这种效果称为饱和(saturation)。我们可以使用参数alpha解决这个问题,将图中的点显示为半透明的。
图2 经过抖动和透明处理的散点图(左)和hexbin图(右)
对于中等规模的数据集,在散点图设置透明度效果很好。但要处理规模更大的数据集,可以使用hexbin图。hexbin图将图像划分为六角形的区间,将每个区间按照其中数据点的数量进行着色。
hexbin的优点是可以很好地展示变量关系的形状,并且对于大数据集运行效率(时间效率和生成的文件大小)很高。缺点是离群值在图中不可见。
描述关系特征
散点图能让我们对变量关系有个大体了解,其他可视化方法则可以让我们更深入了解变量关系的本质。一种方法是对一个变量进行分区,绘制另一个变量的百分位数。
计算分区的过程如下:
- 去除指定列含有nan值的数据行,对数据进行分区
- 遍历每个分区的数据,计算其身高均值和体重CDF
- 绘制身高对应的体重百分位数
下图展示了绘制结果,在140-200厘米,变量关系几乎是线性的。140-200厘米这个范围涵盖了超过99%的数据。
图3 一组高度分区的体重百分位数
相关性
相关性(correlation)是一个统计量,用于量化两个变量之间关系的强弱。
度量相关性的困难在于需要比较的变量通常使用不同的单位,即使变量使用相同的单位,也可能来自不同的分布。通常有两个常见的解决方法:
- 将每个值转换为标准分数(standard score),即其偏离均值的标准差数。这种转换会产生“Pearson乘积矩相关系数”。
- 将每个值都转换为秩,即其在所有值的排列表中的索引。这种转换会产生“Spearman秩相关系数”。
协方差
协方差(covariance)可以度量两个变量共同变化的趋势。如果我们有两个序列X和Y,那么序列中的值与均值的偏差分别为:
协方差是这些乘积的均值:
其中n为这两个序列的长度(两个序列的长度必须相等)。
如果学过线性代数,会发现Cov是两组偏差的点乘积除以其长度。因此,如果两个向量相同,则协方差值最大;如果两个向量正交,则协方差为0;如果两个向量方向相反,则协方差为负数。
Pearson相关性
协方差在一些计算中非常有用,但其含义很难解释,因此很少作为摘要统计量。解决这个问题的方法之一是将偏差除以标准差,得到标准分数,然后计算标准分数的乘积:
其中Sx和Sy分布是X和Y的标准差。
这些乘积的均值为:
或者,可以通过分解Sx和Sy改写标准差:
这个公式以统计学家Karl Pearson的名字命名,称为Pearson相关性。Pearson相关性取值介于-1~+1之间(包含端点)。
ρ的大小表明了相关性的强弱程度,如果ρ为1或-1,两个变量完全相关。
非线性关系
Pearson相关性只是度量了线性关系,如果变量之间存在非线性关系,那么ρ对变量相关性强弱的估计就可能是错误的。
下图摘取自Wiki,展示了数据集的散点图和相关系数。
图4 各种相关性的数据集示例
第一行展示了不同线性相关性的数据集,第二行展示了具有不同斜度的完全相关,第三行展示了变量非线性的相关性。
Spearman秩相关
如果变量之间的关系是线性的,而且变量大致符合正态分布,那么Pearson相关性能很好地说明相关性的强弱,但离群值会影响Pearson相关性的稳健性。Spearman秩相关能缓解离群值以及偏斜分布的影响,也可用于描述变量的相关性。要计算Spearman相关性,必须计算每个值的秩,即该值在排序样本中的索引,然后计算这些秩的Pearson相关性。
相关性和因果关系
如果变量A和变量B相关,那么有3种可能:A导致B,B导致A,或其他因素导致A和B。这些解释称为“因果关系”。但相关性并不意味着因果关系。
证明因果关系的方式有:
- 时间 如果A在B之前发生,那么A可能导致B,而B不可能导致A。
- 随机性 如果将一个大型样本随机分为两组,计算任意变量的均值,那么两组结果的差别应该很小。
正是这些想法催生了随机对照试验。在随机对照试验中,试验对象被随机分配到两个(或多个)组:试验组和对照组,试验组接受某些干预,对照组不接受干预。
在某些情况下,还可以使用回归分析来推导因果关系,这将在后文介绍。
参考文献:
统计思维. Allen B.Downey. 金迎 译
- 统计思维(实例5)——变量之间的关系
- 统计思维(实例1)——统计直方图
- 成员变量、实例变量、属性之间的关系
- 成员变量、实例变量、属性之间的关系
- 成员变量、实例变量、属性之间的关系
- 统计思维(实例3)——分布建模
- 统计思维(实例4)——概率密度函数
- 统计思维(实例6)——术语整理
- 统计思维(实例7)——估计
- 概率统计——两个变量之间的度量
- 《统计思维》学习小记(一)——程序员的统计思维
- 两个变量之间的关系
- 统计思维(实例2)——概率质量函数与累积分布函数
- 作用域、链接属性、存储类型示例——文件之间变量、函数的关系
- fork 父子进程变量之间的关系
- 指针与变量之间的关系
- 变量名和地址之间的关系
- python变量、引用、拷贝之间的关系
- document.form.action,表单分向提交,javascript提交表单
- 数据结构JavaScript描述(一)
- windows下安装reids扩展
- Sublime功能拓展及插件
- 数据结构实验之查找一:二叉排序树
- 统计思维(实例5)——变量之间的关系
- idea 轻松切换svn分支
- Python--小甲鱼学习笔记--第28课:文件(文件打开方式、文件对象方法)
- 4th 数据结构题目没有了,,,,,不高兴
- 解决select2 disabled无效
- 已知二叉树节点数求二叉树形态
- react 组件通信
- hadoop namenode启动失败
- Json转pojo或转List, pojo转json