机器学习储备（1）：协方差和相关系数

来源：互联网发布：喜仕隆石英石知乎编辑：程序博客网时间：2024/06/05 18:34

概率 P 是对随机事件发生的可能性的度量。

例如，小明在期末考试前，统计了下自己在今年的数学考试成绩，结果显示得到80分以下的次数为2次，得80分~90分的次数为10次，得到90分以上次数为3次，那么小明得到 80分以下的概率为：

P( < 80 ) = 2/(2+10+3) = 13.3%

80~90分的概率为：

P( 80 ~ 90) = 10/(2+10+3) = 66.7%

90分以上的概率：

P( > 90) = 3/(2+10+3) = 20%

2期望值

期望值 E，在一个离散性随机变量实验中，重复很多次实验，每次实验的结果乘以其出现的概率的总和。

如上例中，小明在今年的期末考试，我们对他的期望值大约是多少呢？套用上面的公式，80分以下的值取一个代表性的分数：70分，80~90：85分，90分以上：95分，

E = 70 * 0.133 + 85 * 0.667 + 95 * 0.2

计算出的结果为 85，即期末考试我们对小明的合理期望是 85 分左右。

3方差

方差，用来度量随机变量取值和其期望值之间的偏离程度，

其中：

X 表示小明的分数这个随机变量

N 表示样本的个数，即在此15个

已经知道小明的15次考试的分数，均值刚才我们也计算出来了为 85分，带入到上面的公式中，便能得出偏离85分的程度大小。

如果方差很大，那么小明在期末考试的分数可能偏离85分的可能性就越大；如果方差很小，那么小明很可能期末考试分数在85分左右。

方差开根号，得到标准差，即为。

4协方差

以上几个概念理解了后，下面再阐述什么是协方差，字面上看它比方差多一个协字，那么大体也能猜出，它可能是衡量两个随机变量间是不是存在某种关系的。

那么它的实际定义如下：

其中，

X, Y 是两个随机变量

是对应两个随机变量的均值

如果两个变量是高度同向的，即X变大，Y也变大，那么对应的协方差也就很大；如果每次X变大，Y就变小，那么X和Y的协方差可能就会为负数

例如，经过观察，我们发现小明的数学成绩和物理成绩的分数分布情况高度相符，也是70分以下3次，80~90分居多，21次，90分以上1次，那么我们就说小明的数学和物理成绩的协方差很大。

5相关系数

我们考虑具有一般性的公式，通常相关系数的定义如下：

发现这个相关系数与协方差紧密相关，只不过又除以了X的标准差和Y的标准差，也就是说，是一种剔除了X和Y这两个偏离程度量纲的影响，标准化后的特殊协方差。

同样可以拿协方差来理解相关系数，若相关系数很大，则可以得到X变大，Y也很可能会变大的结论。

6总结

我们阐述了几个重要的概念，最后理解了相关系数，理解它为我们之后理解数据预处理的很多算法，及回归分析都很有帮助，如普通最小二乘法 (OLS)为什么在相关系数大的回归分析上变得误差很大。

以上这些概念算是一个作为之后学习的储备吧。谢谢您的阅读！

阅读全文

0 0