数理统计知识回顾

来源:互联网 发布:cnc编程入门教程 编辑:程序博客网 时间:2024/05/19 00:37

Table of Contents

  • 1. 基本概念
  • 2. 点估计、区间估计
  • 3. 假设检验
  • 4. 单因素方差分析

1 基本概念

  1. 样本、总体与统计量
    • 研究对象的全体称为 总体 , 总体对应一个随机变量 X 和分布 F(x)
    • 单个研究对象称为 个体
    • n 个个体称为 样本 (X1,,Xn) , 称 n 为样本容量
    • 一般地, 样本是和总体独立同分的一串随机变量
    • 统计量: 样本的函数, 和未知参数无关
  2. 常见的统计量
    • 样本均值: Xˉ=1ni=1nXi
    • 样本方差: S2=1n1i=1n(XiXˉ)2
    • 样本协方差 1n1i1=n(XiXˉ)(YiYˉ)2
    • 样本相关系数
    ρˆ(X,Y)=i=1n(XiXˉ)(YiYˉ)i=1n(XiXˉ)2i=1n(YiYˉ)2

2 点估计、区间估计

  1. 点估计
    • 设总体均值为 μ , 方差为 σ2 , 均为待估计的参数
    • 样本均值 Xˉ 是均值的无偏估计
    • 样本方差 S2σ2 的无偏估计
  2. 正态总体下点估计的性质
    • 设总体服从 N(μ,σ2) 的分布, 参数均未知
    • Xˉ=1ni=1nXi
    • XˉN(μ,σ2n)标准化后有Xˉμσ/nN(0,1)
    • (n1)S2σ2χ2(n1)
    • σS=S2 代替得
      XˉμS/nt(n1)
  3. 正态单总体均值和方差的区间估计
    • σ2 已知时, μ 的置信水平为 1α 的置信区间为
    [Xˉ±σnUα/2]
    • σ2 未知时, μ 的置信水平为 1α 的置信区间为
    [Xˉ±Sntα/2(n1)]

3 假设检验

  1. 单总体均值的假设检验 ( σ2 已知)
    • H0:μ=μ0,H1:μμ0
    • 原假设成立时
    Z=Xˉμ0σ/nN(0,1)
    • 对立假设成立时, |Z| 倾向于取较大的值, 由实际的样本计算 |Z| 的观测值 |z|value
    • |z|value 是否偏大
      pvalue=P(|Z||z|value)

      的大小来衡量, 称此尾概率为 pvalue

    • 如果 pvalue 小于给定的显著性水平, 则拒绝原假设
  2. 单总体均值的假设检验 ( σ2 未知)
    • H0:μ=μ0,H1:μμ0
    • 原假设成立时
    t=Xˉμ0S/nt(n1)
    • |t|value 是否偏大用
      pvalue=P(|t||t|value)

      的大小来衡量, 称此尾概率为 p值

    • 如果 pvalue 小于给定的显著性水平(小概率的上限), 则拒绝原假设
  3. 两总体的均值差的检验
    • XN(μ1,σ2),YN(μ2,σ2)σ2 为未知参数
    • 分别从两个独立总体中抽取样本 X1,,Xn1,Y1,,Yn2
    • 检验如下假设 H0:μ1=μ2H1:μ1μ2
    • 取检验统计量为
      t=XˉYˉSw1n1+1n2
    • 原假设成立时 tt(n1+n22)
    • 对立假设成立, 检验统计量 |t| 倾向于取较大的值
  4. 检验方法
    • 由实际的样本计算 |t| 的观测值 |t|value
    • |t|value 是否偏大用
      pvalue=P(|t||t|value)

      的大小来衡量, 称此尾概率为 p值

    • 如果 pvalue 小于给定的显著性水平(小概率的上限), 则拒绝原假设
  5. 一点注记
    • 这里的 Sw=S2w , 其中
      S2w=(n11)S2X+(n21)S2Yn1+n22
    • 其中 (n11)S2X=i=1n1(XiXˉ)2,(n21)S2Y=j=1n2(YiYˉ)2
    • 代入可得
      S2w=i=1n1(XiXˉ)2+j=1n2(YiYˉ)2n1+n22
    • 可以证明, 所得的 S2w 实际上是 σ2 的无偏估计
    • (n1+n22)S2wσ2χ2(n1+n22)
  6. F 检验
    • 自由度为 n1+n22 的 t 分布的平方 服从自由度为 F(1,n1+n22) 的F分布
    • 考虑上面两样本 t 检验统计量的平方形式
      t2=(XˉYˉ)2(1n1+1n2)1(n1+n22)S2wn1+n22=SSA/1SSE/(n1+n22)
  7. F检验续
    • 考虑上述式子的分子
    • μˉ=n1Xˉ+n2Yˉn1+n2 为两总体的总平均值
      ===(XˉYˉ)2(1n1+1n2)1n1(Xˉμˉ)2+n2(Yˉμˉ)2n1n22(XˉYˉ)2(n1+n2)2+n2n21(XˉYˉ)2(n1+n2)2n1n2n1+n2(XˉYˉ)2
  8. F检验续
    • 记总平方和为 SST=i=1n1(Xiμˉ)2+i=1n2(Yiμˉ)2
    • 两群体之间差异平方和为 SSA=n1(Xˉμˉ)2+n2(Yˉμˉ)2
    • 两群体内差异平方和为 SSE=i=1n1(XiXˉ)2+j=1n2(YiYˉ)2
    • 则有 SST=SSA+SSE , 在原假设成立的条件下可以证明:
    SSTσ2χ2(n1+n21),  SSAσ2χ2(1),  SSEσ2χ2(n1+n22)
    • 此时有
    t2=SSA/1SSE/(n1+n22)F(1,n1+n22)

4 单因素方差分析

  1. 三组样本均值的比较
    • 如果有三组样本, 记起均值分别为 μ1,μ2,μ3检验其均值是不是全部相等, 即检验 H0:μ1=μ2=μ3H1:不全相等
    • 采用哪个统计量可以度量 原假设和对立假设之间的差异呢
    • 采用两两比较的方法-—学过的
    • 可以猜想如果类别数从 3 增加到10
  2. 检验统计量的构造
    • Xˉ=1nj=13i=1njXji
    • 其中 n=n1+n2+n3
    • SSA=j=13nj(XˉjXˉ)2其中Xˉj=1nji=1njXji 为第 j组的均值, 则 SST 度量了三组样本的均值和总均值之间的差别
    • 可以证明 原假设成立时, 有 SSAσ2χ2(2)
    • 检验方法 SSAσ2 偏大时拒绝原假设
    • 存在的问题: σ2 未知, 怎么办
  3. σ2 直接用估计值代替就可以吗
    • SST=j=13i=1nj(XjiXˉ)2 为总平方和
    • SSE=j=13i=1nj(XjiXˉj)2度量了随机误差
    • 可以证明 SSE/(n3) 实际上是误差方差 σ2 的无偏估计
    • σ2 用估计值代替后的分布难以刻画,为使得分子分布具有可比性,分子除以相应的自由度
    • 检验统计量采用
      F=SSA/(31)SSE/(n3)
  4. 检验统计量的分布
    • 可以证明 原假设成立时 FF(2,n3)
    • 不妨设 σ2 为三组样本的共同方差, 则 H0 成立时
      SSTσ2χ2(n1),SST=SSA+SSE
    • 从而有
      SSAσ2χ2(2),  SSEσ2χ2(n3)
    • SSASSE 相互独立
  5. 单因素方差分析的R实现
    fc<-sample(1:3,100,replace=TRUE)y<-fc+rnorm(100)fc<-as.factor(fc)
    boxplot(y~fc,col=2:4)

    box.png

    fc.ao<-aov(y~fc)anova(fc.ao)
    Analysis of Variance TableResponse: y          Df  Sum Sq Mean Sq F value    Pr(>F)fc         2  77.498  38.749  35.634 2.497e-12 ***Residuals 97 105.480   1.087---Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

原创粉丝点击