数理统计知识回顾
来源:互联网 发布:cnc编程入门教程 编辑:程序博客网 时间:2024/05/19 00:37
Table of Contents
- 1. 基本概念
- 2. 点估计、区间估计
- 3. 假设检验
- 4. 单因素方差分析
1 基本概念
- 样本、总体与统计量
- 研究对象的全体称为 总体 , 总体对应一个随机变量
X 和分布F(x) - 单个研究对象称为 个体
n 个个体称为 样本(X1,⋯,Xn) , 称n 为样本容量- 一般地, 样本是和总体独立同分的一串随机变量
- 统计量: 样本的函数, 和未知参数无关
- 研究对象的全体称为 总体 , 总体对应一个随机变量
- 常见的统计量
- 样本均值:
Xˉ=1n∑i=1nXi - 样本方差:
S2=1n−1∑i=1n(Xi−Xˉ)2 - 样本协方差
1n−1∑i1=n(Xi−Xˉ)(Yi−Yˉ)2 - 样本相关系数
ρˆ(X,Y)=∑i=1n(Xi−Xˉ)(Yi−Yˉ)∑i=1n(Xi−Xˉ)2∑i=1n(Yi−Yˉ)2−−−−−−−−−−−−−−−−−−−−√ - 样本均值:
2 点估计、区间估计
- 点估计
- 设总体均值为
μ , 方差为σ2 , 均为待估计的参数 - 样本均值
Xˉ 是均值的无偏估计 - 样本方差
S2 为σ2 的无偏估计
- 设总体均值为
- 正态总体下点估计的性质
- 设总体服从
N(μ,σ2) 的分布, 参数均未知 Xˉ=1n∑i=1nXi Xˉ∼N(μ,σ2n) 标准化后有Xˉ−μσ/n√∼N(0,1) (n−1)S2σ2∼χ2(n−1) - 将
σ 用S=S2−−√ 代替得Xˉ−μS/n−−√∼t(n−1)
- 设总体服从
- 正态单总体均值和方差的区间估计
σ2 已知时,μ 的置信水平为1−α 的置信区间为
[Xˉ±σn−−√Uα/2] σ2 未知时,μ 的置信水平为1−α 的置信区间为
[Xˉ±Sn−−√tα/2(n−1)]
3 假设检验
- 单总体均值的假设检验 (
σ2 已知)H0:μ=μ0,↔H1:μ≠μ0 - 原假设成立时
Z=Xˉ−μ0σ/n−−√∼N(0,1) - 对立假设成立时,
|Z| 倾向于取较大的值, 由实际的样本计算|Z| 的观测值|z|value |z|value 是否偏大pvalue=P(|Z|≥|z|value) 的大小来衡量, 称此尾概率为
pvalue - 如果
p−value 小于给定的显著性水平, 则拒绝原假设
- 单总体均值的假设检验 (
σ2 未知)H0:μ=μ0,↔H1:μ≠μ0 - 原假设成立时
t=Xˉ−μ0S/n−−√∼t(n−1) |t|value 是否偏大用pvalue=P(|t|≥|t|value) 的大小来衡量, 称此尾概率为 p值
- 如果
p−value 小于给定的显著性水平(小概率的上限), 则拒绝原假设
- 两总体的均值差的检验
X∼N(μ1,σ2),Y∼N(μ2,σ2) σ2 为未知参数- 分别从两个独立总体中抽取样本
X1,⋯,Xn1,Y1,⋯,Yn2 - 检验如下假设
H0:μ1=μ2↔H1:μ1≠μ2 - 取检验统计量为
t=Xˉ−YˉSw1n1+1n2−−−−−−−√ - 原假设成立时
t∼t(n1+n2−2) - 对立假设成立, 检验统计量
|t| 倾向于取较大的值
- 检验方法
- 由实际的样本计算
|t| 的观测值|t|value |t|value 是否偏大用pvalue=P(|t|≥|t|value) 的大小来衡量, 称此尾概率为 p值
- 如果
p−value 小于给定的显著性水平(小概率的上限), 则拒绝原假设
- 由实际的样本计算
- 一点注记
- 这里的
Sw=S2w−−−√ , 其中S2w=(n1−1)S2X+(n2−1)S2Yn1+n2−2 - 其中
(n1−1)S2X=∑i=1n1(Xi−Xˉ)2,(n2−1)S2Y=∑j=1n2(Yi−Yˉ)2 - 代入可得
S2w=∑i=1n1(Xi−Xˉ)2+∑j=1n2(Yi−Yˉ)2n1+n2−2 - 可以证明, 所得的
S2w 实际上是σ2 的无偏估计 - 有
(n1+n2−2)S2wσ2∼χ2(n1+n2−2)
- 这里的
- F 检验
- 自由度为
n1+n2−2 的 t 分布的平方 服从自由度为F(1,n1+n2−2) 的F分布 - 考虑上面两样本 t 检验统计量的平方形式
t2=(Xˉ−Yˉ)2(1n1+1n2)−1(n1+n2−2)S2wn1+n2−2=SSA/1SSE/(n1+n2−2)
- 自由度为
- F检验续
- 考虑上述式子的分子
- 记
μˉ=n1Xˉ+n2Yˉn1+n2 为两总体的总平均值===(Xˉ−Yˉ)2(1n1+1n2)−1n1(Xˉ−μˉ)2+n2(Yˉ−μˉ)2n1n22(Xˉ−Yˉ)2(n1+n2)2+n2n21(Xˉ−Yˉ)2(n1+n2)2n1n2n1+n2(Xˉ−Yˉ)2
- F检验续
- 记总平方和为
SST=∑i=1n1(Xi−μˉ)2+∑i=1n2(Yi−μˉ)2 - 两群体之间差异平方和为
SSA=n1(Xˉ−μˉ)2+n2(Yˉ−μˉ)2 - 两群体内差异平方和为
SSE=∑i=1n1(Xi−Xˉ)2+∑j=1n2(Yi−Yˉ)2 - 则有
SST=SSA+SSE , 在原假设成立的条件下可以证明:
SSTσ2∼χ2(n1+n2−1), SSAσ2∼χ2(1), SSEσ2∼χ2(n1+n2−2) - 此时有
t2=SSA/1SSE/(n1+n2−2)∼F(1,n1+n2−2) - 记总平方和为
4 单因素方差分析
- 三组样本均值的比较
- 如果有三组样本, 记起均值分别为
μ1,μ2,μ3 检验其均值是不是全部相等, 即检验H0:μ1=μ2=μ3↔H1:不全相等 - 采用哪个统计量可以度量 原假设和对立假设之间的差异呢
- 采用两两比较的方法-—学过的
- 可以猜想如果类别数从 3 增加到10
- 如果有三组样本, 记起均值分别为
- 检验统计量的构造
- 记
Xˉ=1n∑j=13∑i=1njXji - 其中
n=n1+n2+n3 - 记
SSA=∑j=13nj(Xˉj⋅−Xˉ)2 其中Xˉj⋅=1nj∑i=1njXji 为第j 组的均值, 则 SST 度量了三组样本的均值和总均值之间的差别 - 可以证明 原假设成立时, 有
SSAσ2∼χ2(2) - 检验方法
SSAσ2 偏大时拒绝原假设 - 存在的问题:
σ2 未知, 怎么办
- 记
σ2 直接用估计值代替就可以吗- 记
SST=∑j=13∑i=1nj(Xji−Xˉ)2 为总平方和 - 记
SSE=∑j=13∑i=1nj(Xji−Xˉj⋅)2 度量了随机误差 - 可以证明
SSE/(n−3) 实际上是误差方差σ2 的无偏估计 σ2 用估计值代替后的分布难以刻画,为使得分子分布具有可比性,分子除以相应的自由度- 检验统计量采用
F=SSA/(3−1)SSE/(n−3)
- 记
- 检验统计量的分布
- 可以证明 原假设成立时
F∼F(2,n−3) - 不妨设
σ2 为三组样本的共同方差, 则H0 成立时SSTσ2∼χ2(n−1),SST=SSA+SSE - 从而有
SSAσ2∼χ2(2), SSEσ2∼χ2(n−3) - 且
SSA 和SSE 相互独立
- 可以证明 原假设成立时
- 单因素方差分析的R实现
fc<-sample(1:3,100,replace=TRUE)y<-fc+rnorm(100)fc<-as.factor(fc)
boxplot(y~fc,col=2:4)
fc.ao<-aov(y~fc)anova(fc.ao)
Analysis of Variance TableResponse: y Df Sum Sq Mean Sq F value Pr(>F)fc 2 77.498 38.749 35.634 2.497e-12 ***Residuals 97 105.480 1.087---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
- 数理统计知识回顾
- 数理统计与概率知识杂谈
- 概率论与数理统计 知识汇总
- 知识回顾
- 回顾知识
- 概率论与数理统计重要知识体系
- 数理统计
- 数理统计
- 数理统计
- 树知识回顾
- 回顾VC常用知识
- 8086汇编知识回顾
- Android知识回顾
- 数据库知识回顾
- jsp知识回顾
- 2011知识回顾
- 知识回顾、String类
- java知识回顾
- Deep learning----------Multi-Stage multi-level architecture analysis
- 在Eclipse中使用JUnit4进行单元测试(初级篇)
- oracle中内连接与外连接的区别及详解
- Deep learning------------Visualizing Higher Layer Features of a Deep Network.
- 在Linux下安装MySql 5.6.14
- 数理统计知识回顾
- 网络编程书籍推荐
- ARM汇编与C语言对照
- qt(2)tip
- 使用Xcode修改iOS项目工程名和路径名
- string方法:将s1,s2连接起来保存在s1中
- MYSQL 测试
- 修改 vi 中 comment 的显示颜色
- 在Eclipse中使用JUnit4进行单元测试(中级篇)