Khan公开课 - 统计学学习笔记：（八）样本均值之差

来源：互联网发布：网络监察大队怎么报警编辑：程序博客网时间：2024/05/12 02:40

E(X)和Var(X)符合线性

所谓的线性，就是f(x+y)=f(x)+f(y)。概率中期望值和方差都符合线性。

X、Y为两个互不相干，即相互独立的概率变量。

如果Z=X+Y，则E(Z)=E(X+Y)=E(X)+E(Y)，方差Var(Z)=Var(X+Y)=Var(X)+Var(Y)。

如果A=X-Y，则E(A)=E(X-Y)=E(X)-E(Y)，方差Var(A)=Var(X-Y)=Var(X)+Var(Y)。因为Var(-Y)=Var（Y）。

下面我们试图进行证明。

Var的线性证明要复杂一些。

对于等式右边的第三个参数相当于2E((X-E(X))(Y-E(Y))，其中E((X-E(X))(Y-E(Y))也记为Cov(X,Y)，即协和方差，当X和Y完全独立的时候，Cov(X,Y)=0。因此，在X、Y为完全不相干事件的前提下，证得Var(Z)=Var(X)+Var(Y)，符合线性关系。我们换种方法证明一下，所谓不相关，就是在不同的纬度上，即矢量相互垂直，用勾股定理证明。Z²=X²+y²，由于E(X)符合线性关系E(Z²)=E（X²）+E（y²）

对于Var(A)=Var(X-Y)=Var(X)+Var(Y)，由于Var(X-Y)=Var(X)+Var(-Y)，只要能证明Var(-Y)=Var(Y)即可。

注意其中E（-Y）=-E（Y），当Y成为都取相反值时，mean也成了相反值，因此方差不发生变化。

样本均值之差的例子1

Z=X-Y，根据中心极限定理，有：

样本均值之差有很多应用场景。例如测试药品效果，实验组n₁=100，E(X₁)=9.31，S₁=4.76，另一个是对照组，n₂=100，E(X₂)=7.40，S₂=4.04。

（1）估算试验效果95%的置信区间。

有两个sample size=100的均值样本变量：X₁和X₂，药物的效果Y=X₁-X₂，而X₁和X₂是独立的样本，即不相干两个变量：X₁和X₂，试验效果Y=X₁-X₂，有：

E(Y)=E(X₁-X₂)= E(X₁)-E(X₂)≈9.31-7.40=1.91

我们查Z table，得到z=1.96

P(Y is within ±1.96σ_Y of μ_Y)=95%

P(1.91 is within ±1.21 of μ_Y) = 95%

P(μ_Y is within ±1.21 of 1.91) = 95% ，药物效果95%的置信区间为（0.7，3.12）。

（2）在sinificance level α=5%下，是否认为药物具有效果？

H₀：μ_x1-μ_x2= 0，即μ_x1-x2=0

H₁：μ_x1-μ_x2> 0，即μ_x1-x2>0，是个单边检验

由于样本足够大，采用Z table，注意此例为one tailed test，差得z score=1.65，而标准差为

我们计算的1.65×0.617=1.033。而本例中9.31-7.40=1.91，也就是我们将选择H₁。

样本均值之差的例子2：总本占比的比较

均值样本支持的应用范围非常广泛，在这个例子中比较男选民投票和女选民投票的差异。在抽样的1000个男选民中投个某候选人A的票给642，其余投个另一个候选人B，在抽样的1000名女选民中，投个候选人A的有591票，其余投給候选人B。上面是已知条件，读题如下：

男选民：Bernoulli分布，有μ₁=p₁，和σ₁²=p₁(1-p₁)。在n=1000个抽样中，样本均值为，其中这次样本均值采样为p₁=0.642

女选民：Bernoulli分布，有μ₂=p₂，和σ₂²=p₂(1-p₂)。在n=1000个抽样中，样本均值为，其中这次样本均值采样为p₂=0.591

（1）问：男、女选民投给候选人A的差异的95%的confident interval

即求p₁-p₂的95%置信区间。

对于男女选民的样本均值的之差异有：，我们得到其中一个样本均值之差为0.642-0.591=0.051。

对于男女选民的样本均值的标准差有：

求p₁-p₂的95%置信区间，即求95% chance that p1-p2 is within distance of 0.051，等同于95% chance that 0.051 is within d of p1-p2，即P（0.051 is within d of p1-p2）=95%，查z table得α=1.96，男女候选人投给被选人A的差异p₁-p₂的95%置信区间为（0.08，0.94）

（2）问：在α=5%下，男、女选民投给候选人A是否存在差异

H₀：No difference, p₁=p₂ →p₁-p₂=0

H₁: There is difference, p₁≠p₂ → p₁-p₂≠0

假设H₀是正确的→，样本均值之差为，如图，我们需要知道0.051的概率落在那个区间。

H0的假设是p1=p2=p，因此样本均值之差的标准差的更好估算应该是

而p在2000个样本中去均值更为准确，p=（642+591）/2000=0.6165，计算的σ=0.0217。

样本均值之差的z score=0.051/0.0217=2.35，我们知道在双边检测的整体分布中，α=5%的critical z score=1.96，所有这个样本均值之差位于更为极端的区间，在统计上，在α=5%上，认为男女选民存在差异，即选择H₁。