Statistic_COM

来源：互联网发布：淘宝township充值原理编辑：程序博客网时间：2024/06/16 04:12

关于统计中常见的一些基础知识简述

序言
本人一开始涉及的都是硬件设计和针对单片机编程，但随着自己视野的开阔和项目的需要，就必须要接触到算法。一开始我入手的算法是“卡尔曼滤波算法”，搜索网上的关于“卡尔曼滤波算法”的例子和演算公式真的是五花八门，看了许久都未搞懂人家在讲什么。基于此我便从权威文档去了解一下该算法，一方面，我认为此类的文档比较可靠；另一方面，作为一名开发人员，就必须以数学的眼光去理解和运用算法。在刚开始阅读文档时便遇见许多关于统计的数学公式和应用。由于对自己的不满，我便狠下心对数理统计和随机过程大补一番。以下分别对期望、方差加以介绍，同时也会介绍围绕方差展开的知识点。

期望

期望，是对一组数求平均。按照每个数的权重可求的该组数的期望。在大学的《概率论与数理统计》这本书中，它用E[x]表示；在研究生课程《随机过程》里，他用E[x(t)]表示。随机过程不仅与变量的取值有关，还与时间有关，所以x就应该写为x(t) 。

期望有以下几个性质：

E[C]=C。其中C为常数。对常数求平均当然还是该常数了。
E[Cx]=CE[x]。
E[x+y]=E[x]+E[y]。
E[xy]=E[x]E[y]。假设x与y相互独立。

在随机过程中也有类似的性质，只不过是把以上的x和y换成x(t)和y(t)。

方差、协方差、协方差矩阵

方差D[x]，是衡量一组数据上下浮动的程度。比如，在选拔射击选手时恰好有两个选手，他们射击数据的平均值，也就是期望是一样的。但到底选谁呢？顾名思义，我们肯定要选择发挥稳定的选手。这就是方差的用武之地了。

方差的定义： D[x]=E{[x−E(x)]2}=E[x2]−E2[x] 。

方差有以下性质：

D[C]=0。常数当然没有任何抖动。
D[x±y]=D(x)+D(y) 。
D[C×x]=C×D[x] 。

在随机过程中也有类似的性质，只不过是把以上的x和y换成x(t)和y(t)。

===================================================================

协方差 ，是衡量两者之间联系的程度。数据越大，表示两者联系越大，反之越小。当两者朝同一个方向发展时，两者的协方差为正，反之为负。

协方差的定义：
Cov(X,Y)=E[(X−E[X])(Y−E[Y])]=E[X×Y]−E(X)×E[Y]

在《随机过程》中，协方差定义：

Cx(s,t)=Cov[X(s),X(t)]=E{[X(s)−mx(s)]×[X(t)−mt(t)]} ，这是对于同一随机变量而言。当涉及到随机过程时，一定要注意X不仅仅是个变量，还是个过程。
Cov[X(s),Y(t)]=E[(X(s)−mx(s))(Y(t)−my(t))] ，这是对于不同随机变量而言。
协方差有以下性质 ：
Cov(X,Y)=Cov(Y,X) 。这表明两个的联系与两者的先后顺序无关。
Cov(X,Y)=0 。当X与Y相互独立时
Cov(aX,bY)=abCov(X,Y) 。
Cov(X1+X2,Y)=Cov(X1+Y)+Cov(X2+Y) 。甲与乙合伙揍丙的结果等效于甲乙分别揍丙的效果是一样的。
Cov(X+Y)=D(X)+D(Y)+2Cov(X,Y) 。
Cov(X,C)=Cov(Y,C)=0 。一个木讷、性格沉闷的人是不会和别人有交流的。

===================================================================

当谈及到协方差后，我不禁会想起一个与协方差类似的一个概念，那就是 相关系数。由于本人能力有限，所以就引用另外一个博友对相关系数的解释。其解释如下：

身高和体重的协方差为30，这究竟是多大的一个量呢？如果我们又发现，身高与鞋号的协方差为5，是否说明，相对于鞋号，身高与体重的的相关性更强呢？

这样横向对比超出了协方差的能力范围。从日常生活经验来说，体重的上下浮动大约为20kg，而鞋号的上下浮动大约可能只是5个号码。所以，对于体重来说，5kg与中心的偏离并不算大，而5个号码的鞋号差距，就可能是最极端的情况了。假设身高和体重的相关强度，与身高和鞋码的相关强度类似，但由于体重本身的数值上下浮动更大，所计算出的协方差也会更大。另一个情况，依然是计算身高与体重的协方差。数据完全不变，而只更改单位。我们的体重用克而不是千克做单位，计算出的协防差是原来数值的1000倍！

为了能进行这样的横向对比，我们需要排除用统一的方式来定量某个随机变量的上下浮动。这时，我们计算相关系数(correlation coefficient)。相关系数是“归一化”的协方差。

[点击此处可查看详细的内容](http://blog.csdn.net/l358682594/article/details/51563490 “协方差与相关系数”)

从这位博友的解释当中可以得知，协方差是有量纲的。拿他的例子来说，身高和体重的协方差为30。这有是建立在kg的单位上，也有可能建立在g的单位上。身高与鞋号的协方差为5，假设单位为码。在不同的单位下，身体与体重的关系大还是与鞋号的关系大？？？？？？这没法比啊，大哥们！！！！单位都不一样。所以我们需要一个统一的标准来计算，当当当，相关系数横空出世了。

相关系数 定义如下： ρxy=Cov(X,Y)D(X)√×D(Y)√

正态分布

当谈完协方差矩阵和协方差之后，我便想起正态分布。我们在大学期间的学习的是一维正态分布，而在后边接触更多的是多维正态分布。下面分别简单地介绍一维正态分布和多维正态分布。

一维正态分布 。在众多统计分布当中，一维正态分布是比较常见的。它的公式表达如下：

f(x)=12π√σ×exp[−(x−μ)22σ2]

其中，μ表示该变量的期望， σ2 是变量的方差。

多维正态分布。当涉及多维时，上面的公式就要改一改。假设有一n维变量
x={x1,x2,⋯,xn} , x∼N(a,B) 。那么此向量的正态分布如下：

P(x)=1(2π)n2|B|12×[−12(x−a)B−1(x−a)T]

其中， a 为期望矩阵， a=[a1,a2,⋯,an] ,其中 ai 是 xii 期望。

B为协方差矩阵， B=⎡⎣⎢⎢⎢σ211⋮σ2n1⋯⋱⋯σ21n⋮σ2nn⎤⎦⎥⎥⎥ , σ2ij 是 xi 与 xj 的协方差。

何为均方误差、均方差、标准差和标准误

均方误差 。均方误差是各数据偏离真实值的距离平方和的平均数，也即误差平方和的平均数。它的计算方式类似于方差。唯一不同的是，均方误差表示各数据与真实值的偏移程度，而方差表示各数据与均值的偏移程度。
均方差。从计算方式上来看，均方差是通过方差开根号得到的。其实它还有另外一个名字，叫做标准差。这里就不对均方差作介绍了，因为下面介绍标准差等价于介绍均方差。
标准差有很多名字，如总体标准差、母体标准差、均方根误差、均方根偏差、均方误差、均方差、单
次测量标准差和理论标准差等。标准差的定义公式为：
σ=1N∑Ni=1(xi−μ)2−−−−−−−−−−−−−√ 。其中，N为总体数， μ 为总体算术平均数。 ……………………（1）
从式子的定义当中可以看出，式子（1）只有理论意义，无法求出 μ 。因为μ 和 N 是无法计算得到的。而实际上采用的方法是样本参数来估计总体的参数, 即用样本标准差 s 的值作为总体标准差 σ 的估计值。打个比喻，国家要得到全国人口数，假设人口总数是N，当然这个数我们是无法得到的，那么国家是怎么知道人口的？答案是在某个地区先统计某些人口，然后按照当地的比例去估算当地的人口，然后综合每个地域的人口估计总数，那就是全国人口总数了。这个过程就是：以样本人口数去估计全国人口总数。
样本标准差的定义如下：
s=1n−1∑ni=1(xi−x)2−−−−−−−−−−−−−−−√ ，其中 x 为样本算术平均数；n为样本数。
样本与总体的联系是：当 n→∞ 时， s→σ 。标准差表明了样本变量的分散程度，并不能说明离实际值的程度。式子中的x就是为了标明分散程度而求的一个均值 。
标准误 。由以上可知，我们常采用样本的样本标准差去估计样本的总体标准差。但是，每个样本组估计的样本是否一样，他们的离散程度怎么样？它们离总体算术平均数的程度怎么样？那么这些事就由标准误来做。标准误的定义如下：
sx=sn√ 。
标准误与标准差之间的差别与联系 。

区别：标准差一般用 s 表示, 是表示个体间变异大小的指标,反映了整个样本对样本平均数的离散程度, 是数据精密度的衡量指标; 而标准误一般用 sx 表示, 反映样本平均数对总体平均数的变异程度, 从而反映抽样误差的大小, 是量度结果精密度的指标。打个比方，人有很多群体，假设要测量某项参数，标准差则表示每个群体的该项参数的离散程度；若每个群体对该参数取个平均值，则标准误表示了不同群体平均值的离散程度。

联系：随着样本数( 或测量次数) n 的增大, 标准差趋向某个稳定值, 即样本标准差 s 越接近总体标准差 σ , 而标准误则随着样本数( 或测量次数) n 的增大逐渐减小, 即样本平均数越接近总体平均数 μ 。

本小节参考： [1] 郝拉娣，于化东 . 标准差与标准误[J] . 编辑学报 . 2005 , 4 。

小结

由于本人刚刚涉及算法这一块，再加着本人语文老师同时也是体育老师，所以在文笔和内容方面难免有缺陷，还望广大博友能够指出。同时本人爱好电子以及编程，希望能够结识更多的爱好此方面的朋友。联系邮箱：2395194887@qq.com 或 joe@etrd.org 。

阅读全文

1 0