协方差与自相关

来源:互联网 发布:sql join 编辑:程序博客网 时间:2024/05/11 13:03

协方差矩阵是一个矩阵,其每个元素是各个向量元素之间的协方差。这是从标量随机变量到高维度随机向量的自然推广。

假设X是以n个标量随机变量组成的列向量

X = \begin{bmatrix}X_1 \\  \vdots \\ X_n \end{bmatrix}

并且\mu_i是其第i个元素的期望值,即, \mu_i = \mathrm{E}(X_i)。协方差矩阵被定义的第i,j项是如下:

\Sigma_{ij}= \mathrm{cov}(X_i, X_j) = \mathrm{E}\begin{bmatrix}(X_i - \mu_i)(X_j - \mu_j)\end{bmatrix}

即:

\Sigma=\mathrm{E}\left[ \left( \textbf{X} - \mathrm{E}[\textbf{X}] \right) \left( \textbf{X} - \mathrm{E}[\textbf{X}] \right)^\top\right]

=\begin{bmatrix} \mathrm{E}[(X_1 - \mu_1)(X_1 - \mu_1)] & \mathrm{E}[(X_1 - \mu_1)(X_2 - \mu_2)] & \cdots & \mathrm{E}[(X_1 - \mu_1)(X_n - \mu_n)] \\ \\ \mathrm{E}[(X_2 - \mu_2)(X_1 - \mu_1)] & \mathrm{E}[(X_2 - \mu_2)(X_2 - \mu_2)] & \cdots & \mathrm{E}[(X_2 - \mu_2)(X_n - \mu_n)] \\ \\ \vdots & \vdots & \ddots & \vdots \\ \\ \mathrm{E}[(X_n - \mu_n)(X_1 - \mu_1)] & \mathrm{E}[(X_n - \mu_n)(X_2 - \mu_2)] & \cdots & \mathrm{E}[(X_n - \mu_n)(X_n - \mu_n)]\end{bmatrix}


期望值分别为E(X)=\muE(Y)=\nu的两个实数随机变量X 与Y 之间的协方差定义为:

\operatorname{cov}(X, Y) = \operatorname{E}((X - \mu) (Y - \nu))

其中E是期望值。它也可以表示为:

\operatorname{cov}(X, Y) = \operatorname{E}(X \cdot Y) - \mu \nu

如果X 与Y 是统计独立的,那么二者之间的协方差就是0,这是因为

E(X \cdot Y)=E(X) \cdot E(Y)=\mu\nu,

但是反过来并不成立,即如果X 与Y 的协方差为0,二者并不一定是统计独立的。

取决于协方差的相关性η

 \eta = \left| \dfrac{\operatorname{cov}(X, Y)}{\sqrt{\operatorname{var}(X) \cdot \operatorname{var}(Y)}} \right| ,

更准确地说是线性相关性,是一个衡量线性独立的无量纲数,其取值在[0,+1]之间。相关性η = 1时称为“完全线性相关”,此时将Yi对Xi作Y-X 散点图,将得到一组精确排列在直线上的点;相关性数值介于0到1之间时,其越接近1表明线性相关性越好,作散点图得到的点的排布越接近一条直线。

在统计学中,特定时间序列或者连续信号 Xt 的自协方差是信号与其经过时间平移的信号之间的协方差。如果序列的每个状态都有一个平均数 E[Xt] = μt,那么自协方差为

\, \gamma(i,j) = E[(X_i - \mu_i)(X_j - \mu_j)].\,

其中 E 是期望值运算符。如果 Xt 是二阶平稳过程,那么有更加常见的定义:

\, \gamma(k) = E[(X_i - \mu)(X_{i-k} - \mu)].\,

其中 k 是信号移动的量值,通常称为延时。如果用方差 σ2 进行归一化处理,那么自协方差就变成了自相关系数R(k),即

 R(k) = \frac{\gamma(k)}{\sigma^2}.\,

需要注意的是,在有些学科中自协方差术语等同于自相关。

将一个有序的随机变量系列与其自身相比较,这就是自相关函数在统计学中的定义。每个不存在相位差的系列,都与其自身相似,即在此情况下,自相关函数值最大。如果系列中的组成部分相互之间存在相关性(不再是随机的),则由以下相关值方程所计算的值不再为零,这样的组成部分为自相关。

R(k) = \frac{E[(X_i - \mu_i)(X_{i+k} - \mu_{i+k})]}{\sigma^2}
E ......... 期望值。
X_i ........ 在t(i)时的随机变量值。
\mu_i ........ 在t(i)时的预期值。
X_{i+k} .... 在t(i+k)时的随机变量值。
\mu_{i+k} .... 在t(i+k)时的预期值。
\sigma^2 ......... 为方差。

所得的自相关值R的取值范围为[-1,1],1为最大正相关值,-1则为最大负相关值,0为不相关。