推断性统计部分(三)---假设检验
来源:互联网 发布:网络教育 高起专 时间 编辑:程序博客网 时间:2024/03/29 16:57
推断性统计部分(三)—假设检验
标签(空格分隔): 概率论与数理统计
假设检验
假设检验与置信区间其实是一样意思,区别就是再多做两步工作(假设及判断),仅此而已。
我们先回顾置信区间是计算的
1、判断是否正态总体
2、找到枢轴量(简单的说,就是一个关于随机变量X及参数的函数,它有自己单独的,与变量及参数都无关的分布,这样就可以用过这个分布来确定函数内的参数的置信区间)
3、利用枢轴量的分布求出置信水平的置信区间,根据枢轴量函数计算出的置信区间
然后看一下假设检验的计算方式(置信区间法)
1、判断是否正态总体及建立假设
2、找到枢轴量(在假设检验中叫检验统计量)
3、利用枢轴量的分布求出置信水平的置信区间,根据枢轴量函数计算出的置信区间,若原假设的值落在置信区间之内,则不能拒绝原假设(注意,是不能拒绝原假设,不是接受原假设,这个是不一样的,不能拒绝的意思是不能判断,而接受则为可以判断,比如原假设是有只有1块钱在身上,不能拒绝原假设的意思是,我不知道你有没有1块钱在身上,你有可能没钱,有可能只有1块钱,也有可能有很多钱,而接收原假设的意思是,你只有1块钱,这个要非常注意,不能乱作判断!)
另外介绍另外两种常用的假设检验方法:
1、临界值法
与置信区间法的区别就是,置信区间法是
2、P值法
与临界值法的区别就是,把假设代入检验统计量中计算,并计算在这个结果下,P值的大小,由P值与显著水平
同样,假设检验由检验统计量可以分为Z检验、t检验、
前提条件检验
由假设检验,我们倒过来看它所需要的条件,独立、正态,这两个是大部分检验所需要的前提条件,所以讨论一下这两项性质的检验:
独立性检验:所使用的检验方法叫游程检验,方法如下:
检验样本的随机性:将取自某一总体的样本的观察值按从小到大顺序排列,找出中位数(或平均数),分为大于中位数的小于中位数的两个部分。用上下交错形成的游程个数来检验样本是否是随机的。
检验规则(小样本n<20) 应用游程检验临界表,(α=0.05,r为临界值)
单侧检验:观察到的游程个数r0 ≤临界值(上行值)或r0 ≥临界值(下行值),否定H0;反之,接受H0。
双侧检验: 观察到的游程个数r0,r(上行值)<r0<r(下行值) ,接受Ho,反之,拒绝H0。
游程检验表如下:正态检验:很复杂,偏度、峰度检验法(基于对称性及平坦性的检验);MiniTab中的Anderson-Darling(基于 ECDF(经验累积分布函数)的检验);Ryan-Joiner(类似于 Shapiro-Wilk 检验,基于相关的检验);Kolmogorov-Smirnov基于 ECDF 的检验)。后续有空了再单独开文详数正态检验方法。
假设检验的两类错误
基于显著水平
对Z检验右单侧检验问题,从下面的一张图上看,其实它可以简单的判断为一个双总体均值差的假设检验,其它检验法较复杂,未学会,只给出公式。
图中,
公式汇总如下:
χ2 检验
- 分布拟合(现在一般叫优度拟合)
我们设原假设为分布是假设分布F(X),备择假设是分布不是假设分布F(X)。于是,采用统计量其中,χ2=∑i=1knpi(fin−pi)2=∑i=1kf2inpi−n=∑i=1k(fi−npi)2npi=∑i=1k(fi−Ei)2Ei∼χ2(k−1) n 为进行试验的总次数,fi 为落在子集的频数,fin 则是子集A的频率,pi 为拟合函数在子集A中的概率,公式的意思就是各子集的频率和概率不应该相差太大。同时,此公式也可化为各子集的频数与期望的差平方除以期望。拒绝域由χ2α(k−1) 给出
上面是参数已知的χ2 优度拟合,当分布参数未知时,需要使用最大似然估计对参数时行估计,估计了多少个参数(λ ),就需要减掉多少个(λ )自由度上述式子的拒绝域相应变为χ2α(k−λ−1) - 列联表
卡方检验另一大作用,使用列联表来进行独立性检验,方法如下:
1、建立假设,原假设行列元素相互独立;
2、确定检验统计量,此时整理为列联表格式
此时,表格中各
当表格中实际观测值与期望相差不大时,可以认为各组数据是相互独立的(由独立性定义
3、拒绝域由
非参数检验
上面所说的均值、方差或比率检验都是参数检验,它要求所有观测数据独立、总体是正态分布或近似正态分布或二项分布,而对观测数据的前提条件检验,如游程检验独立性、正态性检验、卡方检验等,这些是非参数检验,它不是针对分布的参数进行检验描述。
非参数检验方法:问题仍然是参数问题(均值相等等问题),但方法是非参数的,即使用符号、秩、游程等和原分布无关的工具进行分析,这就是非参数检验的基本思想。从上文中游程检验就可以知道这类工具的大概,下面介绍另外几种工具:
1)符号检验法
对于一些问题,如满意度检验(满意,不满意),产品合格(合格,不合格),心情(高兴,不高兴)等只有两个对立结果(假如两个产品(M产品和N产品)的效果对比,由抛硬币决定先用M还是先用N,然后可以得到四个结果,MN都有效,M有效而N无效,M无效而N有效,MN都无效,此时,对立的结果应该是中间的两个,MN都有效或无效的都不应计算,因为它们并不能反映两个效果的对比)的问题检验,可以使用符号检验法,方法为:使用对立的两个数据,相加为总数
由符号检验法引申出中位数符号检验法,即把一组中的中位数作为对立结果进行区分后,使用符号检验。
符号检验表:
2)秩和检验
首先说明两个概念:秩(即名次,为两组数据混合后放在一起进行排列得到的名次(称之为秩),可以由小到大排,可以按时间排,可以按任意规定的方式排),结(数据相等的情况,它是由排列出秩之后,对相等数据的秩进行平均替换),例子如下表:
表中3.5的来源是,原位置是3、4两个秩,但因数值相等,则需要把它们加起来再除以个数,即
基本思想:秩和检验的基本思想就是基于二项分布概率,假如有个数m=3,n=4两组数据,那么秩的排列应该就存在
秩和检验方法如下:
1、混合两组数据(个数分别为m,n)排列求秩,把两个分组对应数据的秩求和,得到两个秩和
2、通过查表,可以查得在两组数据个数(m,n)下,某个显著水平
3、对比
秩和检验表如下:
- 推断性统计部分(三)---假设检验
- 推断性统计部分(二)---参数估计
- 推断性统计部分(四)---简单方差分析
- 推断性统计部分(五)---简单回归分析
- 推断性统计部分(一)---样本与分布的关系及其检验统计量
- 统计学习(三):假设检验与 p-values
- 单样本和两样本的统计推断:置信区间和假设检验
- 统计推断(第二章)
- 统计推断(第三章)
- 统计推断(第四章)
- 统计推断(第五章)
- 统计推断(第六章)
- 统计推断(statistical inference)
- 统计学习(二):统计推断
- "众包中的统计推断与激励机制" 主题报告速记与评述(三)
- 贝叶斯推断 2. 统计推断
- 统计假设检验基础知识
- 统计假设检验基础知识
- Android动画初见
- LeetCode 201. Bitwise AND of Numbers Range
- linux-文件权限
- Spark笔记:RDD基本操作(上)
- Nginx反向代理实现会话(session)保持的两种方式
- 推断性统计部分(三)---假设检验
- java - disconf分布式管理-配置文件篇
- Access denied for user(这个几乎让我怀疑人生的异常)
- 让MySql支持Emoji表情(MySQL中4字节utf8字符保存方法)
- android权限(permission)大全
- 第1章 BashShell命令------------(变量数组、alias)
- 数学(Anton and School,cf 734F)
- 成长经验----ABS出差
- 自定义的基本的dialog