Statistic_COM

来源:互联网 发布:淘宝township充值原理 编辑:程序博客网 时间:2024/06/16 04:12

关于统计中常见的一些基础知识简述

  • 序言

      本人一开始涉及的都是硬件设计和针对单片机编程,但随着自己视野的开阔和项目的需要,就必须要接触到算法。一开始我入手的算法是“卡尔曼滤波算法”,搜索网上的关于“卡尔曼滤波算法”的例子和演算公式真的是五花八门,看了许久都未搞懂人家在讲什么。基于此我便从权威文档去了解一下该算法,一方面,我认为此类的文档比较可靠;另一方面,作为一名开发人员,就必须以数学的眼光去理解和运用算法。在刚开始阅读文档时便遇见许多关于统计的数学公式和应用。由于对自己的不满,我便狠下心对数理统计和随机过程大补一番。以下分别对期望、方差加以介绍,同时也会介绍围绕方差展开的知识点。


期望

   期望,是对一组数求平均。按照每个数的权重可求的该组数的期望。在大学的《概率论与数理统计》这本书中,它用E[x]表示;在研究生课程《随机过程》里,他用E[x(t)]表示。 随机过程不仅与变量的取值有关,还与时间有关,所以x就应该写为x(t) 。

  期望有以下几个性质:

  1. E[C]=C。其中C为常数。 对常数求平均当然还是该常数了。
  2. E[Cx]=CE[x]。
  3. E[x+y]=E[x]+E[y]。
  4. E[xy]=E[x]E[y]。假设x与y相互独立。

在随机过程中也有类似的性质,只不过是把以上的x和y换成x(t)和y(t)。


方差、协方差、协方差矩阵

  方差D[x],是衡量一组数据上下浮动的程度。比如,在选拔射击选手时恰好有两个选手,他们射击数据的平均值,也就是期望是一样的。但到底选谁呢?顾名思义,我们肯定要选择发挥稳定的选手。这就是方差的用武之地了。

  方差的定义: D[x]=E{[xE(x)]2}=E[x2]E2[x]

  方差有以下性质:

  1. D[C]=0常数当然没有任何抖动。
  2. D[x±y]=D(x)+D(y)
  3. D[C×x]=C×D[x]

在随机过程中也有类似的性质,只不过是把以上的x和y换成x(t)和y(t)。

===================================================================

  协方差 ,是衡量两者之间联系的程度。数据越大,表示两者联系越大,反之越小。当两者朝同一个方向发展时,两者的协方差为正,反之为负。

  协方差的定义:
   Cov(X,Y)=E[(XE[X])(YE[Y])]=E[X×Y]E(X)×E[Y]

  在《随机过程》中,协方差定义:

  1. Cx(s,t)=Cov[X(s),X(t)]=E{[X(s)mx(s)]×[X(t)mt(t)]} ,这是对于同一随机变量而言。 当涉及到随机过程时,一定要注意X不仅仅是个变量,还是个过程。

  2. Cov[X(s),Y(t)]=E[(X(s)mx(s))(Y(t)my(t))] ,这是对于不同随机变量而言。

    协方差有以下性质

  3. Cov(X,Y)=Cov(Y,X)这表明两个的联系与两者的先后顺序无关。

  4. Cov(X,Y)=0当X与Y相互独立时

  5. Cov(aX,bY)=abCov(X,Y)

  6. Cov(X1+X2,Y)=Cov(X1+Y)+Cov(X2+Y)甲与乙合伙揍丙的结果等效于甲乙分别揍丙的效果是一样的。

  7. Cov(X+Y)=D(X)+D(Y)+2Cov(X,Y)

  8. Cov(X,C)=Cov(Y,C)=0一个木讷、性格沉闷的人是不会和别人有交流的。

===================================================================

  当谈及到协方差后,我不禁会想起一个与协方差类似的一个概念,那就是 相关系数。由于本人能力有限,所以就引用另外一个博友对相关系数的解释。其解释如下:

  身高和体重的协方差为30,这究竟是多大的一个量呢?如果我们又发现,身高与鞋号的协方差为5,是否说明,相对于鞋号,身高与体重的的相关性更强呢?

  这样横向对比超出了协方差的能力范围。从日常生活经验来说,体重的上下浮动大约为20kg,而鞋号的上下浮动大约可能只是5个号码。所以,对于体重来说,5kg与中心的偏离并不算大,而5个号码的鞋号差距,就可能是最极端的情况了。假设身高和体重的相关强度,与身高和鞋码的相关强度类似,但由于体重本身的数值上下浮动更大,所计算出的协方差也会更大。另一个情况,依然是计算身高与体重的协方差。数据完全不变,而只更改单位。我们的体重用克而不是千克做单位,计算出的协防差是原来数值的1000倍!

  为了能进行这样的横向对比,我们需要排除用统一的方式来定量某个随机变量的上下浮动。这时,我们计算相关系数(correlation coefficient)。相关系数是“归一化”的协方差。

[点击此处可查看详细的内容](http://blog.csdn.net/l358682594/article/details/51563490 “协方差与相关系数”)

  从这位博友的解释当中可以得知,协方差是有量纲的。拿他的例子来说,身高和体重的协方差为30。这有是建立在kg的单位上,也有可能建立在g的单位上。身高与鞋号的协方差为5,假设单位为码。在不同的单位下,身体与体重的关系大还是与鞋号的关系大??????这没法比啊,大哥们!!!!单位都不一样。所以我们需要一个统一的标准来计算,当当当,相关系数横空出世了。

  相关系数 定义如下: ρxy=Cov(X,Y)D(X)×D(Y)

  相关系数有以下性质:

  1. ρxy1
  2. ρxy=1 ,当且当 P{Y=aX+b}=1,其中a,b为常数。

===================================================================

  假设我们有这么一个n维向量 α={α1,α2,,αn} ,那么这个可以看作成n维向量空间,向量里每个元素都可以看作成一个维度。当然,要构成n维向量空间的首要条件是向量里的每个元素就必须相互独立。

  那么从协方差的角度出发, 向量α 每个元素彼此之间的的协方差该怎么表示呢?那数起来有n2 个了。 相同元素之间的协方差就是方差 。为了方便表达出来,可以用矩阵表示,这个矩阵就叫做协方差矩阵。其表示

σ211σ2n1σ21nσ2nn 其中, σ2ijαiαj 的协方差。当然,当i=j时,σ2ij 就表示方差。

  由以上得知,协方差表示一维变量之间的关系,而协方差表示多维向量之间的关系。


正态分布

  当谈完协方差矩阵和协方差之后,我便想起正态分布。我们在大学期间的学习的是一维正态分布,而在后边接触更多的是多维正态分布。下面分别简单地介绍一维正态分布和多维正态分布。

  一维正态分布 。在众多统计分布当中,一维正态分布是比较常见的。它的公式表达如下:

f(x)=12πσ×exp[(xμ)22σ2]

  其中,μ表示该变量的期望, σ2 是变量的方差。

  多维正态分布。当涉及多维时,上面的公式就要改一改。 假设有一n维变量
x={x1,x2,,xn} , xN(a,B) 。那么此向量的正态分布如下:

P(x)=1(2π)n2|B|12×[12(xa)B1(xa)T]

  其中, a 为期望矩阵, a=[a1,a2,,an] ,其中 aixii 期望。

  B为协方差矩阵, B=σ211σ2n1σ21nσ2nn , σ2ijxixj 的协方差。


何为均方误差、均方差、标准差和标准误

  • 均方误差 。均方误差是各数据偏离真实值的距离平方和的平均数,也即误差平方和的平均数。它的计算方式类似于方差。唯一不同的是,均方误差表示各数据与真实值的偏移程度,而方差表示各数据与均值的偏移程度。

  • 均方差。从计算方式上来看,均方差是通过方差开根号得到的。其实它还有另外一个名字,叫做标准差。这里就不对均方差作介绍了,因为下面介绍标准差等价于介绍均方差。

  • 标准差有很多名字,如总体标准差、母体标准差 、均方根误差 、均方根偏差、均方误差、均方差、单
    次测量标准差和理论标准差等 。标准差的定义公式为:

    σ=1NNi=1(xiμ)2 。其中,N为总体数, μ 为总体算术平均数。 ……………………(1)

      从式子的定义当中可以看出,式子(1)只有理论意义,无法求出 μ 。因为μN 是无法计算得到的。而实际上采用的方法是样本参数来估计总体的参数, 即用样本标准差 s 的值作为总体标准差 σ 的估计值 。 打个比喻,国家要得到全国人口数,假设人口总数是N,当然这个数我们是无法得到的,那么国家是怎么知道人口的?答案是在某个地区先统计某些人口,然后按照当地的比例去估算当地的人口,然后综合每个地域的人口估计总数,那就是全国人口总数了。这个过程就是:以样本人口数去估计全国人口总数。

      样本标准差的定义如下:

    s=1n1ni=1(xix)2 ,其中 x 为样本算术平均数;n为样本数。

    样本与总体的联系是:当 n 时, sσ标准差表明了样本变量的分散程度,并不能说明离实际值的程度。式子中的x就是为了标明分散程度而求的一个均值

  • 标准误 。由以上可知,我们常采用样本的样本标准差去估计样本的总体标准差。但是,每个样本组估计的样本是否一样,他们的离散程度怎么样?它们离总体算术平均数的程度怎么样?那么这些事就由标准误来做。标准误的定义如下:

    sx=sn

  • 标准误与标准差之间的差别与联系

  区别:标准差一般用 s 表示, 是表示个体间变异大小的指标,反映了整个样本对样本平均数的离散程度, 是数据精密度的衡量指标; 而标准误一般用 sx 表示, 反映样本平均数对总体平均数的变异程度, 从而反映抽样误差的大小, 是量度结果精密度的指标。 打个比方,人有很多群体,假设要测量某项参数,标准差则表示每个群体的该项参数的离散程度;若每个群体对该参数取个平均值,则标准误表示了不同群体平均值的离散程度。

  联系:随着样本数( 或测量次数) n 的增大, 标准差趋向某个稳定值, 即样本标准差 s 越接近总体标准差 σ , 而标准误则随着样本数( 或测量次数) n 的增大逐渐减小, 即样本平均数越接近总体平均数 μ

本小节参考: [1] 郝拉娣,于化东 . 标准差与标准误[J] . 编辑学报 . 2005 , 4 。


小结

  由于本人刚刚涉及算法这一块,再加着本人语文老师同时也是体育老师,所以在文笔和内容方面难免有缺陷,还望广大博友能够指出。同时本人爱好电子以及编程,希望能够结识更多的爱好此方面的朋友。联系邮箱:2395194887@qq.com 或 joe@etrd.org 。

原创粉丝点击