协方差与相关系数
来源:互联网 发布:网络英语词汇 编辑:程序博客网 时间:2024/05/29 16:31
作者:Vamei 出处:http://www.cnblogs.com/vamei 欢迎转载,也请保留这段声明。谢谢!
前面介绍的分布描述量,比如期望和方差,都是基于单一随机变量的。现在考虑多个随机变量的情况。我们使用联合分布来表示定义在同一个样本空间的多个随机变量的概率分布。
联合分布中包含了相当丰富的信息。比如从联合分布中抽取某个随机变量的边缘分布,即获得该随机变量的分布,并可以据此,获得该随机变量的期望和方差。这样做是将视线限制在单一的一个随机变量上,我们损失了联合分布中包含的其他有用信息,比如不同随机变量之间的互动关系。为了了解不同随机变量之间的关系,需要求助其它的一些描述量。
协方差
协方差(covariance)表达了两个随机变量的协同变化关系。我们取一个样本空间,即学生的体检数据。学生的身高为随机变量X,学生的体重为随机变量Y。
160cm170cm180cm60kg0.20.050.0570kg0.050.30.0580kg0.050.050.2根据上表,大的身高(180cm)和大的体重(80kg)同时出现的概率较大(0.2),小的身高值(160cm)和小的体重(60kg)的概率也较大(0.2)。偏大的身高往往伴随偏大的体重,偏小的身高常伴随偏小的体重。这种“大”伴随着“大”,“小”伴随着“小”的情形,叫做正相关。根据上面的数据,身高和体重两个随机变量正相关性很强。
另一方面,如果“大”配“小”,“小”配“大”的概率很高,那么两个随机变量负相关。“最萌身高差”是负相关的一个范例。(样本空间为情侣的身高信息。可以定义男生身高为一个随机变量,女生身高为另一个随机变量)
正如其他的分布描述量一样,协方差从概率分布中提取信息,让我们获知分布的“性能”。对于一个已知的联合分布来说,任意两个随机变量之间都可以计算出一个协方差,即一个数值。
定义
协方差的定义如下,如果X和Y是联合分布的随机变量,且分别有期望
协方差的定义基于期望。根据期望的定义,协方差可以直接用于离散随机变量和连续随机变量。
我们已经知道,期望是某个随机变量根据概率的加权平均。我们所要加权平均的目标是
回到刚才的数据来计算相关性,
160cm170cm180cm60kg0.20.050.0570kg0.050.30.0580kg0.050.050.2让身高为X,体重为Y。我们可以通过边缘分布,来分别获得X和Y的分布(回忆一下)。求得X和Y的期望,分别为170和70。计算各个格子中的
上面的两个表,对应的格子相乘,并求和,就得到协方差:
在上面的计算中,正相关的项目都分配有比较大的概率值。最终的协方差也是一个正值。
根据期望的性质,我们可以改写协方差的表达形式:
当X和Y独立时,有
(注意,
相关系数
正的协方差表达了正相关性,负的协方差表达了负相关性。对于同样的两个随机变量来说,计算出的协方差越大,相关性越强。
但随后一个问题,身高和体重的协方差为30,这究竟是多大的一个量呢?如果我们又发现,身高与鞋号的协方差为5,是否说明,相对于鞋号,身高与体重的的相关性更强呢?
这样横向对比超出了协方差的能力范围。从日常生活经验来说,体重的上下浮动大约为20kg,而鞋号的上下浮动大约可能只是5个号码。所以,对于体重来说,5kg与中心的偏离并不算大,而5个号码的鞋号差距,就可能是最极端的情况了。假设身高和体重的相关强度,与身高和鞋码的相关强度类似,但由于体重本身的数值上下浮动更大,所计算出的协方差也会更大。另一个情况,依然是计算身高与体重的协方差。数据完全不变,而只更改单位。我们的体重用克而不是千克做单位,计算出的协防差是原来数值的1000倍!
为了能进行这样的横向对比,我们需要排除用统一的方式来定量某个随机变量的上下浮动。这时,我们计算相关系数(correlation coefficient)。相关系数是“归一化”的协方差。它的定义如下:
相关系数是用协方差除以两个随机变量的标准差。相关系数的大小在-1和1之间变化。再也不会出现因为计量单位变化,而数值暴涨的情况了。
依然使用上面的身高和体重数据,可以计算出
这样一个“归一化”了的相关系数,更容易让人把握到相关性的强弱,也更容易在不同随机变量之间,做相关性的横向比较。
- 协方差与相关系数
- 协方差与相关系数
- 协方差与相关系数、矩
- 协方差与相关系数
- 协方差 与 相关系数
- 协方差与相关系数
- 概率论11 协方差与相关系数
- 相关系数与协方差间的转换
- 【回归分析】[1]--协方差与相关系数
- 协方差与相关系数 numpy中cov与corrcoef的使用
- 第四章 随机变量的数字特征之协方差与相关系数
- python/pandas/numpy数据分析(十一)-相关系数与协方差
- 协方差矩阵, 相关系数矩阵
- 协方差和相关系数
- 协方差矩阵,相关系数矩阵
- 协方差、相关系数---通俗解释
- [梳理]协方差、方差、相关系数
- 协方差矩阵和相关系数
- call和apply的区别
- LightOJ 1356 && LightOJ 1336
- Android TabActivity使用
- https://leetcode.com/problems/multiply-strings/
- Step into Scala - 16 - 样本类与模式匹配
- 协方差与相关系数
- mysql sql mode详解
- 工业化社会的四次变革
- 用千分位格式化数据“123456789”
- linux shell “永久环境变量”、“临时环境变量”和"普通变量"之完全解读
- [leetcode] 47.Permutations II
- 第一篇文(写在最前面)
- bootstrap按钮css,供学习试用
- 122页第20题