数理统计知识回顾

来源：互联网发布：cnc编程入门教程编辑：程序博客网时间：2024/05/19 00:37

1. 基本概念
2. 点估计、区间估计
3. 假设检验
4. 单因素方差分析

1 基本概念

样本、总体与统计量
- 研究对象的全体称为总体 , 总体对应一个随机变量 X 和分布 F(x)
- 单个研究对象称为个体
- n 个个体称为样本 (X1,⋯,Xn) , 称 n 为样本容量
- 一般地, 样本是和总体独立同分的一串随机变量
- 统计量：样本的函数, 和未知参数无关
常见的统计量
- 样本均值： Xˉ=1n∑i=1nXi
- 样本方差： S2=1n−1∑i=1n(Xi−Xˉ)2
- 样本协方差 1n−1∑i1=n(Xi−Xˉ)(Yi−Yˉ)2
- 样本相关系数
ρˆ(X,Y)=∑i=1n(Xi−Xˉ)(Yi−Yˉ)∑i=1n(Xi−Xˉ)2∑i=1n(Yi−Yˉ)2−−−−−−−−−−−−−−−−−−−−√

2 点估计、区间估计

点估计
- 设总体均值为 μ , 方差为 σ2 , 均为待估计的参数
- 样本均值 Xˉ 是均值的无偏估计
- 样本方差 S2 为 σ2 的无偏估计
正态总体下点估计的性质
- 设总体服从 N(μ,σ2) 的分布, 参数均未知
- Xˉ=1n∑i=1nXi
- Xˉ∼N(μ,σ2n)标准化后有Xˉ−μσ/n√∼N(0,1)
- (n−1)S2σ2∼χ2(n−1)
- 将 σ 用 S=S2−−√ 代替得 $X ˉ - μ S / n - - \sqrt \sim t (n - 1)$
正态单总体均值和方差的区间估计
- σ2 已知时, μ 的置信水平为 1−α 的置信区间为
[Xˉ±σn−−√Uα/2]
- σ2 未知时, μ 的置信水平为 1−α 的置信区间为
[Xˉ±Sn−−√tα/2(n−1)]

3 假设检验

单总体均值的假设检验 ( σ2 已知)
- H0:μ=μ0,↔H1:μ≠μ0
- 原假设成立时
Z=Xˉ−μ0σ/n−−√∼N(0,1)
- 对立假设成立时, |Z| 倾向于取较大的值, 由实际的样本计算 |Z| 的观测值 |z|value
- |z|value 是否偏大 $p v a l u e = P (| Z | \geq | z | v a l u e)$
  的大小来衡量, 称此尾概率为 pvalue
- 如果 p−value 小于给定的显著性水平, 则拒绝原假设
单总体均值的假设检验 ( σ2 未知)
- H0:μ=μ0,↔H1:μ≠μ0
- 原假设成立时
t=Xˉ−μ0S/n−−√∼t(n−1)
- |t|value 是否偏大用 $p v a l u e = P (| t | \geq | t | v a l u e)$
  的大小来衡量, 称此尾概率为 p值
- 如果 p−value 小于给定的显著性水平(小概率的上限), 则拒绝原假设
两总体的均值差的检验
- X∼N(μ1,σ2),Y∼N(μ2,σ2)σ2 为未知参数
- 分别从两个独立总体中抽取样本 X1,⋯,Xn1,Y1,⋯,Yn2
- 检验如下假设 H0:μ1=μ2↔H1:μ1≠μ2
- 取检验统计量为 $t = X ˉ - Y ˉ S w 1 n 1 + 1 n 2 - - - - - - - \sqrt$
- 原假设成立时 t∼t(n1+n2−2)
- 对立假设成立, 检验统计量 |t| 倾向于取较大的值
检验方法
- 由实际的样本计算 |t| 的观测值 |t|value
- |t|value 是否偏大用 $p v a l u e = P (| t | \geq | t | v a l u e)$
  的大小来衡量, 称此尾概率为 p值
- 如果 p−value 小于给定的显著性水平(小概率的上限), 则拒绝原假设
一点注记
- 这里的 Sw=S2w−−−√ , 其中 $S 2 w = ( n 1 - 1 ) S 2 X + ( n 2 - 1 ) S 2 Y n 1 + n 2 - 2$
- 其中 (n1−1)S2X=∑i=1n1(Xi−Xˉ)2,(n2−1)S2Y=∑j=1n2(Yi−Yˉ)2
- 代入可得 $S 2 w = \sum i = 1 n 1 ( X i - X ˉ ) 2 + \sum j = 1 n 2 ( Y i - Y ˉ ) 2 n 1 + n 2 - 2$
- 可以证明, 所得的 S2w 实际上是 σ2 的无偏估计
- 有 (n1+n2−2)S2wσ2∼χ2(n1+n2−2)
F 检验
- 自由度为 n1+n2−2 的 t 分布的平方服从自由度为 F(1,n1+n2−2) 的F分布
- 考虑上面两样本 t 检验统计量的平方形式 $t 2 = ( X ˉ - Y ˉ ) 2 ( 1 n 1 + 1 n 2 ) - 1 ( n 1 + n 2 - 2 ) S 2 w n 1 + n 2 - 2 = S S A / 1 S S E / ( n 1 + n 2 - 2 )$
F检验续
- 考虑上述式子的分子
- 记 μˉ=n1Xˉ+n2Yˉn1+n2 为两总体的总平均值 $= = = (X ˉ - Y ˉ) 2 (1 n 1 + 1 n 2) - 1 n 1 (X ˉ - μ ˉ) 2 + n 2 (Y ˉ - μ ˉ) 2 n 1 n 2 2 ( X ˉ - Y ˉ ) 2 ( n 1 + n 2 ) 2 + n 2 n 2 1 ( X ˉ - Y ˉ ) 2 ( n 1 + n 2 ) 2 n 1 n 2 n 1 + n 2 (X ˉ - Y ˉ) 2$
F检验续
- 记总平方和为 SST=∑i=1n1(Xi−μˉ)2+∑i=1n2(Yi−μˉ)2
- 两群体之间差异平方和为 SSA=n1(Xˉ−μˉ)2+n2(Yˉ−μˉ)2
- 两群体内差异平方和为 SSE=∑i=1n1(Xi−Xˉ)2+∑j=1n2(Yi−Yˉ)2
- 则有 SST=SSA+SSE , 在原假设成立的条件下可以证明：
SSTσ2∼χ2(n1+n2−1), SSAσ2∼χ2(1), SSEσ2∼χ2(n1+n2−2)
- 此时有
t2=SSA/1SSE/(n1+n2−2)∼F(1,n1+n2−2)

4 单因素方差分析

三组样本均值的比较
- 如果有三组样本, 记起均值分别为 μ1,μ2,μ3检验其均值是不是全部相等, 即检验 H0:μ1=μ2=μ3↔H1:不全相等
- 采用哪个统计量可以度量原假设和对立假设之间的差异呢
- 采用两两比较的方法-—学过的
- 可以猜想如果类别数从 3 增加到10
检验统计量的构造
- 记 Xˉ=1n∑j=13∑i=1njXji
- 其中 n=n1+n2+n3
- 记 SSA=∑j=13nj(Xˉj⋅−Xˉ)2其中Xˉj⋅=1nj∑i=1njXji 为第 j组的均值, 则 SST 度量了三组样本的均值和总均值之间的差别
- 可以证明原假设成立时, 有 SSAσ2∼χ2(2)
- 检验方法 SSAσ2 偏大时拒绝原假设
- 存在的问题： σ2 未知, 怎么办
σ2 直接用估计值代替就可以吗
- 记 SST=∑j=13∑i=1nj(Xji−Xˉ)2 为总平方和
- 记 SSE=∑j=13∑i=1nj(Xji−Xˉj⋅)2度量了随机误差
- 可以证明 SSE/(n−3) 实际上是误差方差 σ2 的无偏估计
- σ2 用估计值代替后的分布难以刻画，为使得分子分布具有可比性，分子除以相应的自由度
- 检验统计量采用 $F = S S A / ( 3 - 1 ) S S E / ( n - 3 )$
检验统计量的分布
- 可以证明原假设成立时 F∼F(2,n−3)
- 不妨设 σ2 为三组样本的共同方差, 则 H0 成立时 $S S T σ 2 \sim χ 2 (n - 1), S S T = S S A + S S E$
- 从而有 $S S A σ 2 \sim χ 2 (2), S S E σ 2 \sim χ 2 (n - 3)$
- 且 SSA 和 SSE 相互独立

单因素方差分析的R实现

fc<-sample(1:3,100,replace=TRUE)y<-fc+rnorm(100)fc<-as.factor(fc)

boxplot(y~fc,col=2:4)

fc.ao<-aov(y~fc)anova(fc.ao)

Analysis of Variance TableResponse: y          Df  Sum Sq Mean Sq F value    Pr(>F)fc         2  77.498  38.749  35.634 2.497e-12 ***Residuals 97 105.480   1.087---Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

数理统计知识回顾

Table of Contents

1 基本概念

2 点估计、区间估计

3 假设检验

4 单因素方差分析