第3章 随机变量的数字特征

来源:互联网 发布:淘宝网店提升信誉 编辑:程序博客网 时间:2024/05/19 17:05

第3章 随机变量的数字特征

[TOC]
随机变量的数字特征,是某些由随机变量的分布所决定的常数,它刻画了随机变量(或者说,刻画了其分布)的某一方面的性质。

3.1 数学期望(均值)与中位数

3.1.1 数学期望的定义

设随机变量X只能取有限个可能值a1,a2,,am,其概率分布为P(X=ai)=pi(i=1,,m)。则X的数学期望,记为E(X)或EX,定义为:

E(X)=a1p1+a2p2++ampm=aipi.

数学期望也常被称为均值
当X取无穷多个值时,aipi的上界取无穷,这时候要求这个级数是收敛的。这就要求:
i=0|ai|pi<

对于连续型随机变量的情况,设X是一个连续型随机变量,如果:

|x|f(x)dx<

则X的数学期望为:
E(X)=xf(x)dx

数学期望是由随机变量的分布完全决定的。

3.1.2 数学期望的性质

若干个随机变量和的期望等于各变量的期望之和,即:

E(X1+X2++Xn)=E(X1)+E(X2)++E(Xn).


若干个独立随机变量之积的期望等于各变量的期望之积,即:

E(X1X2Xn)=E(X1)E(X2)E(Xn).

注意这里要求各个随机变量是相互独立的。


设随机变量X为离散型,有分布函数P(X=ai)=pi(i=1,2,);或者为连续型,有概率密度函数f(x)。则:

E(g(x))=ig(ai)pii|g(ai)|pi<


E(g(X))=g(x)f(x)dx|g(x)|f(x)dx<

也就是说,要求g(x)的期望,并不一定非要求出来g(x)的密度函数。


E(cX)=cE(X)

3.1.3 条件数学期望(条件均值)

按定义,条件数学期望

E(Y|x)=yf(y|x)dy

它反应了随着x的取值变化,Y的变化情况是如何。这通常是研究者所关心的主要内容。比如人群中固定身高x,平均体重的变化情况。在统计学上,也把E(Y|x)作为x的函数,称为Y对X的“回归函数”。

联想到全概率公式,有:

E(Y)=E(Y|x)f1(x)dx

E(Y)=E[E(Y|X)]

即一个变量的期望等于其条件期望的期望。

3.1.4 中位数

设连续型随机变量X的分布函数为F(x),则满足条件:

P(X<m)=F(m)=1/2

的m,称为X或分布F的中位数。

与期望相比,中位数受个别特大值或特小值的影响很小。但是,应用却没有期望广泛,主要是因为:

  • 期望(均值)有很多优良的性质。
  • 中位数本身固有某些缺点,比如可以不唯一。
  • 对于离散型的变量,可能并没有理想的“中位”数。

3.2 方差与矩

设X为随机变量,分布为F,则:

Var(X)=E[(XE(X))2]

称为X或分布F的方差,其平方根Var称为X或分布F的标准差。


Var(X)=E(X2)[E(X)]2


  1. 常数的方差为0。
  2. 若c为常数,则Var(X+c)=Var(X)
  3. 若c为常数,则Var(cX)=c2Var(X)

独立随机变量之和的方差等于各变量的方差之和。

Var(X1++Xn)=Var(X1)++Var(Xn)


设X为一随机变量,E(X)=a,而Var(X)=σ2。记Y=(Xa)/σ,则E(Y)=0,Var(Y)=1。这样对X进行一次线性变换后,得到一个具有均值为0、方差为1的变量Y。常称Y是X的“标准化”

正态分布完全由均值和方差决定。方差σ2越小,X的取值就以更大的概率集中在均值μ附近。

分布 期望(均值) 方差 泊松分布 λ λ 指数分布 1/λ2 二项分布 ip np(1p) 负二项分布 r(1p)/p 均匀分布 12(a+b) (ba)2/12 正态分布 μ σ2 n卡方分布 n 2n n t分布 0 n/(n2)(n>2) (m,n) t分布 n/(n2) 2n2(m+n2)m(n2)2(n4)(n>4)

3.2.2 矩

设X为随机变量,c为常数,k为正整数。则量E[(Xc)k]称为X关于c点的k阶矩

比较重要的有两种情况:

  • c=0,αk=E(Xk)称为X的k阶原点矩
  • c=E(X),μk=E[(XE(X))k]称为X的k阶原点矩

β1=μ3μ3/22称为X或其分布的“偏度系数”。如果β>0则称分布为正偏或右偏,如果β<0则称分布为负偏或左偏。

β2=μ4μ22称为X或其分布的“峰度系数”。

3.3 协方差与相关系数

E(X)=m1,E(Y)=m2,Var(X)=σ21,Var(Y)=σ22

E[(Xm1)(Ym2)]为X,Y的协方差,并记为Cov(X,Y)


Cov(c1X+c2,c3Y+c4)=c1c3Cov(X,Y)

Cov(X,Y)=E(X,Y)m1m2

两条性质:
1.若X,Y独立,则Cov(X,Y)=0
2.[Cov(X,Y)]2σ21σ22 。等号当且仅当X,Y有严格线性关系时成立。


Cov(X,Y)/(σ1σ2)为X,Y的相关系数,并记为Corr(X,Y)

形式上,可以把相关系数看成是“标准尺度下的协方差”。

两条性质:
1.若X,Y独立,则Corr(X,Y)=0。(但反过来说不一定成立)
2.1Corr(X,Y)1 。等号当且仅当X,Y有严格线性关系时成立。

可以将相关系数看成是X与Y之间线性关系程度的度量。

3.4 大数定理和中心极限定理

3.4.1 大数定理

X1,X2,,Xn,是独立同分布的随机变量,均值和方差分别为a,σ2。则对任意给定的ε>0,有:

limnP(|X¯a|ε)=0

大数定理也可以理解成是当n很大时,我们有很大的把握断言均值很接近a。
在概率论中,叫做X¯依概率收敛于a

马尔科夫不等式

P(Yε)E(Y)/ε


契比雪夫不等式

P(|YEY|ε)Var(Y)/ε2

3.4.2 中心极限定理

也叫作林德伯格定理或林德伯格-莱维定理。

X1,X2,,Xn,是独立同分布的随机变量(注意并没有说是什么分布),均值和方差分别为a,σ2。则对任何实数x,有:

limnP(1nσ(X1+X2++Xnna)x)=Φ(x)
,其中Φ(x)是标准正态分布N(0,1)的分布函数。

这其实是一个标准化的过程。这告诉我们,在很难求出X1+X2++Xn的确切形式时,可以用正态分布做近似。

X1,X2,,Xn,是某事件A在n次独立试验中发生的次数,均值为p,方差为p(1-p)。对任何实数x,有:

棣莫佛-拉普拉斯定理(最早的中心极限定理)

limnP(1np(1p)σ(X1+X2++Xnnp)x)=Φ(x)

如果t1,t2是两个正整数,且t1<t2。则当n相当大时,近似有:

P(t1X1+X2++Xnt2)Φ(y2)Φ(y1)

其中
yi=(tinp)/np(1p)(i=1,2)

可以修正为:
y1=(t112np)/np(1p)

y2=(t2+12np)/np(1p)

原创粉丝点击