Statistic_COM
来源:互联网 发布:淘宝township充值原理 编辑:程序博客网 时间:2024/06/16 04:12
关于统计中常见的一些基础知识简述
序言
本人一开始涉及的都是硬件设计和针对单片机编程,但随着自己视野的开阔和项目的需要,就必须要接触到算法。一开始我入手的算法是“卡尔曼滤波算法”,搜索网上的关于“卡尔曼滤波算法”的例子和演算公式真的是五花八门,看了许久都未搞懂人家在讲什么。基于此我便从权威文档去了解一下该算法,一方面,我认为此类的文档比较可靠;另一方面,作为一名开发人员,就必须以数学的眼光去理解和运用算法。在刚开始阅读文档时便遇见许多关于统计的数学公式和应用。由于对自己的不满,我便狠下心对数理统计和随机过程大补一番。以下分别对期望、方差加以介绍,同时也会介绍围绕方差展开的知识点。
期望
期望,是对一组数求平均。按照每个数的权重可求的该组数的期望。在大学的《概率论与数理统计》这本书中,它用E[x]表示;在研究生课程《随机过程》里,他用E[x(t)]表示。 随机过程不仅与变量的取值有关,还与时间有关,所以x就应该写为x(t) 。
期望有以下几个性质:
- E[C]=C。其中C为常数。 对常数求平均当然还是该常数了。
- E[Cx]=CE[x]。
- E[x+y]=E[x]+E[y]。
- E[xy]=E[x]E[y]。假设x与y相互独立。
在随机过程中也有类似的性质,只不过是把以上的x和y换成x(t)和y(t)。
方差、协方差、协方差矩阵
方差D[x],是衡量一组数据上下浮动的程度。比如,在选拔射击选手时恰好有两个选手,他们射击数据的平均值,也就是期望是一样的。但到底选谁呢?顾名思义,我们肯定要选择发挥稳定的选手。这就是方差的用武之地了。
方差的定义:
方差有以下性质:
D[C]=0 。常数当然没有任何抖动。D[x±y]=D(x)+D(y) 。D[C×x]=C×D[x] 。
在随机过程中也有类似的性质,只不过是把以上的x和y换成x(t)和y(t)。
===================================================================
协方差 ,是衡量两者之间联系的程度。数据越大,表示两者联系越大,反之越小。当两者朝同一个方向发展时,两者的协方差为正,反之为负。
协方差的定义:
在《随机过程》中,协方差定义:
Cx(s,t)=Cov[X(s),X(t)]=E{[X(s)−mx(s)]×[X(t)−mt(t)]} ,这是对于同一随机变量而言。 当涉及到随机过程时,一定要注意X不仅仅是个变量,还是个过程。Cov[X(s),Y(t)]=E[(X(s)−mx(s))(Y(t)−my(t))] ,这是对于不同随机变量而言。协方差有以下性质 :
Cov(X,Y)=Cov(Y,X) 。这表明两个的联系与两者的先后顺序无关。Cov(X,Y)=0 。当X与Y相互独立时Cov(aX,bY)=abCov(X,Y) 。Cov(X1+X2,Y)=Cov(X1+Y)+Cov(X2+Y) 。甲与乙合伙揍丙的结果等效于甲乙分别揍丙的效果是一样的。Cov(X+Y)=D(X)+D(Y)+2Cov(X,Y) 。Cov(X,C)=Cov(Y,C)=0 。一个木讷、性格沉闷的人是不会和别人有交流的。
===================================================================
当谈及到协方差后,我不禁会想起一个与协方差类似的一个概念,那就是 相关系数。由于本人能力有限,所以就引用另外一个博友对相关系数的解释。其解释如下:
身高和体重的协方差为30,这究竟是多大的一个量呢?如果我们又发现,身高与鞋号的协方差为5,是否说明,相对于鞋号,身高与体重的的相关性更强呢?
这样横向对比超出了协方差的能力范围。从日常生活经验来说,体重的上下浮动大约为20kg,而鞋号的上下浮动大约可能只是5个号码。所以,对于体重来说,5kg与中心的偏离并不算大,而5个号码的鞋号差距,就可能是最极端的情况了。假设身高和体重的相关强度,与身高和鞋码的相关强度类似,但由于体重本身的数值上下浮动更大,所计算出的协方差也会更大。另一个情况,依然是计算身高与体重的协方差。数据完全不变,而只更改单位。我们的体重用克而不是千克做单位,计算出的协防差是原来数值的1000倍!
为了能进行这样的横向对比,我们需要排除用统一的方式来定量某个随机变量的上下浮动。这时,我们计算相关系数(correlation coefficient)。相关系数是“归一化”的协方差。
[点击此处可查看详细的内容](http://blog.csdn.net/l358682594/article/details/51563490 “协方差与相关系数”)
从这位博友的解释当中可以得知,协方差是有量纲的。拿他的例子来说,身高和体重的协方差为30。这有是建立在kg的单位上,也有可能建立在g的单位上。身高与鞋号的协方差为5,假设单位为码。在不同的单位下,身体与体重的关系大还是与鞋号的关系大??????这没法比啊,大哥们!!!!单位都不一样。所以我们需要一个统一的标准来计算,当当当,相关系数横空出世了。
相关系数 定义如下:
相关系数有以下性质:
∣∣ρxy∣∣≤1 。∣∣ρxy∣∣=1 ,当且当P{Y=aX+b}=1 ,其中a,b为常数。
===================================================================
假设我们有这么一个n维向量
那么从协方差的角度出发, 向量
由以上得知,协方差表示一维变量之间的关系,而协方差表示多维向量之间的关系。
正态分布
当谈完协方差矩阵和协方差之后,我便想起正态分布。我们在大学期间的学习的是一维正态分布,而在后边接触更多的是多维正态分布。下面分别简单地介绍一维正态分布和多维正态分布。
一维正态分布 。在众多统计分布当中,一维正态分布是比较常见的。它的公式表达如下:
其中,μ表示该变量的期望,
多维正态分布。当涉及多维时,上面的公式就要改一改。 假设有一n维变量
其中,
B为协方差矩阵,
何为均方误差、均方差、标准差和标准误
均方误差 。均方误差是各数据偏离真实值的距离平方和的平均数,也即误差平方和的平均数。它的计算方式类似于方差。唯一不同的是,均方误差表示各数据与真实值的偏移程度,而方差表示各数据与均值的偏移程度。
均方差。从计算方式上来看,均方差是通过方差开根号得到的。其实它还有另外一个名字,叫做标准差。这里就不对均方差作介绍了,因为下面介绍标准差等价于介绍均方差。
标准差有很多名字,如总体标准差、母体标准差 、均方根误差 、均方根偏差、均方误差、均方差、单
次测量标准差和理论标准差等 。标准差的定义公式为:σ=1N∑Ni=1(xi−μ)2−−−−−−−−−−−−−√ 。其中,N为总体数,μ 为总体算术平均数。 ……………………(1)从式子的定义当中可以看出,式子(1)只有理论意义,无法求出
μ 。因为μ 和N 是无法计算得到的。而实际上采用的方法是样本参数来估计总体的参数, 即用样本标准差 s 的值作为总体标准差σ 的估计值 。 打个比喻,国家要得到全国人口数,假设人口总数是N,当然这个数我们是无法得到的,那么国家是怎么知道人口的?答案是在某个地区先统计某些人口,然后按照当地的比例去估算当地的人口,然后综合每个地域的人口估计总数,那就是全国人口总数了。这个过程就是:以样本人口数去估计全国人口总数。样本标准差的定义如下:
s=1n−1∑ni=1(xi−x)2−−−−−−−−−−−−−−−√ ,其中x 为样本算术平均数;n为样本数。样本与总体的联系是:当
n→∞ 时,s→σ 。标准差表明了样本变量的分散程度,并不能说明离实际值的程度。式子中的x就是为了标明分散程度而求的一个均值 。标准误 。由以上可知,我们常采用样本的样本标准差去估计样本的总体标准差。但是,每个样本组估计的样本是否一样,他们的离散程度怎么样?它们离总体算术平均数的程度怎么样?那么这些事就由标准误来做。标准误的定义如下:
sx=sn√ 。标准误与标准差之间的差别与联系 。
区别:标准差一般用 s 表示, 是表示个体间变异大小的指标,反映了整个样本对样本平均数的离散程度, 是数据精密度的衡量指标; 而标准误一般用
联系:随着样本数( 或测量次数) n 的增大, 标准差趋向某个稳定值, 即样本标准差 s 越接近总体标准差
本小节参考: [1] 郝拉娣,于化东 . 标准差与标准误[J] . 编辑学报 . 2005 , 4 。
小结
由于本人刚刚涉及算法这一块,再加着本人语文老师同时也是体育老师,所以在文笔和内容方面难免有缺陷,还望广大博友能够指出。同时本人爱好电子以及编程,希望能够结识更多的爱好此方面的朋友。联系邮箱:2395194887@qq.com 或 joe@etrd.org 。
- Statistic_COM
- 堆内存管理应用例题
- Python学习笔记 9--正则表达式
- 网络技巧(一):如何在github上快速找到项目内容?
- 简析BS/CS
- 共享单车首页__安卓高德地图集成简单实践
- Statistic_COM
- Redis面试题
- 文件搜索小工具
- LeetCode 54.Spiral Matrix (Medium)
- 浅谈使用element ui + vuedraggable + sortablejs实现多种版式布局及托拽(2)
- 比较快也比较漂亮的熟练剖分模板(BZOJ 1036:树剖+线段树 BZOJ 1103:树剖+树状数组)
- C++程序结构
- Firewall简介
- git命令集