统计学7

来源:互联网 发布:python post 发送文件 编辑:程序博客网 时间:2024/06/14 04:13

随机变量之差的方差
假设有两个随机变量X和Y,两者完全独立。
E(X)=μX
E(Y)=μY
Var(X)=E((XμX)2)=σ2X
Var(Y)=E((YμY)2)=σ2Y

假设有Z=X+Y
E(Z)=E(X+Y)=E(X)+E(Y),
Var(Z)=Var(X)+Var(Y)。

假设有A=X-Y
E(A)=E(X-Y)=E(X)-E(Y),
Var(A)=Var(X)+Var(-Y)=Var(X)+Var(Y)=Var(Z)。
证明Var(Y)=Var(Y)
Var(Y)=E((YE(Y))2)=E((Y+E(Y))2)
而E(-Y)=-E(Y)
Var(Y)=E((Y+E(Y))2)=E((YE(Y))2)=Var(Y)

随机变量之差的均值等于均值之差,随机变量之差的方差等于方差之和。

样本均值之差的分布
有随机变量X服从任意分布,总体均值μX,方差σ2X
有随机变量Y服从任意分布,总体均值μY,方差σ2Y
样本容量很大时,随机变量X和Y的样本均值的抽样分布服从正态分布。
随机变量X的样本均值X¯抽样分布的均值μX¯=μX,方差σ2X¯=σ2Xn
随机变量Y的样本均值Y¯抽样分布的均值μY¯=μY,方差σ2Y¯=σ2Ym

定义一个新的随机变量Z=X¯Y¯,Z表示从总体X中取n个样本求均值,从总体Y中取m个样本求均值,两个均值之差。Z服从正态分布。
μZ=μX¯Y¯=μX¯μY¯(抽样分布的均值)=μXμY(总体均值)
σ2Z=σ2X¯Y¯=σ2X¯+σ2Y¯(抽样分布的方差)=σ2Xn+σ2Ym(总体方差)

样本均值之差的置信区间
我们想检验一种新低脂节食产品是否帮助人们减肥,100个随机抽取的人采用此产品,另外100个人采用普通节食产品作对照,4个月后第一组体重减轻均值9.31磅,样本标准差4.67磅,第二组样本均值是7.4磅,样本标准差4.04磅。计算95%置信区间。

考虑均值之差的分布。
均值μX1¯X2¯=μX1¯μX2¯=9.31-7.4=1.91。
方差
σ2X1¯X2¯=σ2X1¯+σ2X2¯=σ2X1100+σ2X2100S2X1100+S2X2100=4.672100+4.042100
标准差σX1¯X2¯=0.617

查z表格得,z=1.96
所以95%置信区间是1.91±1.96×0.617=1.91±2.1

我们95%确信采用低脂节食产品比采用普通节食产品多减轻0.7 到3.12 磅,真实差异值μX1μX2在0.7 到3.12 区间内。

样本均值之差的假设检验
定义零假设:低脂节食产品无效,μX1μX2=0,也就是μX1¯μX2¯=μX1¯X2¯=0
备择假设:低脂节食产品,μX1μX2>0,也就是μX1¯μX2¯=μX1¯X2¯>0

任何假设检验,都有一定的显著性水平,在这里α=5%。
假设零假设正确,μX1¯X2¯=0。这里是单侧检验,查z表格,右侧尾部显著性水平5%在距离均值1.65个标准差处,1.65*0.617=1.02。
这里写图片描述
如果低脂节食产品无效,两样本均值之差超过1.02的概率只有5%。而得到的样本差值是1.91,所以拒绝零假设。

总体占比比较的置信区间
总统选举,我想知道男性和女性中投给某候选人的占比是否有显著不同。
这里写图片描述
也就是p1p2是否有显著差别,求出参数p1p2 95%的置信区间。

调查了1000个投票的男性和1000个投票的女性。男性中,642人投给此候选人,记为1,358人用0表示。女性中,591人投给此候选人,记为1,409人用0表示。
计算男性样本均值p1¯=0.642,女性样本均值p2¯=0.591。

因为样本容量很大,样本占比的抽样分布图服从正态分布。
这里写图片描述

不仅考虑男女性单独的抽样分布,要考虑两样本占比之差的抽样分布。这里说的占比其实是一般的均值。
均值μp1¯p2¯=μp1¯μp2¯=0.642-0.591=0.051。
方差
σ2p1¯p2¯=σ2p1¯+σ2p2¯=p1(1p1)1000+p2(1p2)10000.642(10.642)1000+0.591(10.591)1000
标准差σX1¯X2¯=0.022

95%的置信区间d,表示有95%几率,0.051在p1p2周围d之内,也等同于p1p2在0.051周围d之内。查表格,得到z=1.96。
d=0.051±1.96×σX1¯X2¯=0.051±1.960.022=0.051±0.043
因此投给某一特定候选人的男女总体占比之差的95%置信区间,也就是p1p2的95%置信区间是0.008到0.094。有95%几率确信男性比女性占比大。

总体占比比较的假设检验
定义零假设:男性和女性中投给某候选人的占比没有显著不同,p1p2=0
备择假设:有显著不同,p1p20
显著性水平α=5%

假设零假设成立,p1=p2=p,求得实际样本占比差值0.051的概率。
0.051距离抽样分布均值0的z分数,z=0.0510σp1¯p2¯=0.0510p1(1p1)1000+p2(1p2)1000=0.05102p(1p)1000
此中p未知,我们可以考虑估计p¯=(0.642+0.591)/2=0.6165。
z=0.051020.6165(10.6165)1000=0.051/0.0217=2.35

这里是双侧检验,查z表格得到拒绝零假设的最小z分数,左右侧尾部显著性水平5%在距离均值1.96个标准差处。而2.35>1.96,所以零假设成立下,得到实际样本占比差值0.051的概率小于5%,拒绝零假设。
这里写图片描述

0 0