假设检验

来源:互联网 发布:mac 卸载jdk 编辑:程序博客网 时间:2024/05/02 13:19

假设检验 V.S 显著性检验

假设检验(Hypothesis Testing)是数理统计学中根据一定假设条件由样本推断总体的一种方法。用来判断样本与样本,样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。

显著性检验(significance test)只是假设检验中最常用的一种方法。显著性检验就事先对总体(随机变量)的参数或总体分布形式做出一个假设,然后利用样本信息来判断这个假设(备择假设)是否合理,即判断总体的真实情况与原假设是否有显著性差异。

【基本思想】

小概率反证法思想。小概率思想是指小概率事件(P<0.01P<0.05)在一次试验中基本上不会发生。反证法思想是先提出假设(检验假设H0),再用适当的统计方法确定假设成立的可能性大小,如可能性小,则认为假设不成立。

【基本步骤】

1) 提出检验假设又称无效假设,符号是H0;备择假设的符号是H1

H0:样本与总体或样本与样本间的差异是由抽样误差引起的;

H1:样本与总体或样本与样本间存在本质差异;

预先设定的检验水准为0.05;当检验假设为真,但被错误地拒绝的概率,记作α,通常取α=0.05或α=0.01

2) 选定统计方法,由样本观察值按相应的公式计算出统计量的大小。

3) 根据统计量的大小及其分布确定检验假设成立的可能性P的大小并判断结果。若P>α,结论为按α所取水准不显著,不拒绝H0,即认为差别很可能是由于抽样误差造成的,在统计上不成立;如果P≤α,结论为按所取α水准显著,拒绝H0,接受H1,则认为此差别不大可能仅由抽样误差所致,很可能是实验因素不同造成的,故在统计上成立。P值的大小一般可通过查阅相应的界值表得到。

【常用检验】

常用的检验方法分为参数检验和非参数检验。

参数检验是对参数平均值、方差进行的统计检验。

非参数检验是在总体方差未知或知道甚少的情况下,利用样本数据对总体分布形态等进行推断的方法。在推断过程中不涉及有关总体分布的参数包括卡方检验、二项分布检验。

1. T检验(Student’s t test)

主要用于样本含量较小(n < 30),总体标准差未知的正态分布

不适用与多组间比较。

1) 单总体检验

单总体t检验是检验一个样本平均数与一个已知的总体平均数的差异是否显著。


1) 双总体检验

双总体t检验是检验两个样本平均数与其各自所代表的总体的差异是否显著。分为独立样本t检验和配对样本t检验。

2-1) 独立样本t检验

两组数据来自不同被试。要求两组方差不会明显不同,方差齐性的假设可进行F检验。


当方差不齐时使用校正t检验或进行变量代换。

2-2) 配对样本t检验

两组数据来自同一组被试,样本为相关样本,需要计算相关系数γ。


   ,d为差值

1. F检验

方差齐性检验。在两样本T检验中要用到F检验。从两研究总体中随机抽取样本,要对这两个样本进行比较的时候,首先要判断两总体方差是否相同,即方差齐性。若两总体方差相等,则直接用t检验,若不等,可采用t'检验或变量变换或秩和检验等方法。F检验主要通过比较两组数据的方差,以确定他们的精密度是否有显著性差异。至于两组数据之间是否存在系统误差,则在进行F检验并确定它们的精密度没有显著性差异之后,再进行t检验。

较大,较小


1. u检验

实际应用中,样本例数n较大,或n较小但总体标准差σ已知时使用u检验。n小且总体标准差σ未知时使用t检验,但样本要求来自正态分布总体


2. 方差分析(ANOVA)

用于两个及两个以上样本均数差别的显著性检验。从观测变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有显著影响的变量。

方差分析的基本原理是认为不同处理组的均数间的差别基本来源有两个:

(1) 实验条件,即不同的处理造成的差异,称为组间差异。用变量在各组的均值与总均值之偏差平方和的总和表示,记作SSb,组间自由度dfb

(2) 随机误差,如测量误差造成的差异或个体间的差异,称为组内差异,用变量在各组的均值与该组内变量值之偏差平方和的总和表示, 记作SSw,组内自由度dfw

总偏差平方和 SSt = SSb + SSw

组内SSw、组间SSb除以各自的自由度(组内dfw =n-m,组间dfb=m-1,其中n为样本总数,m为组数),得到其均方MSwMSb,一种情况是处理没有作用,即各组样本均来自同一总体,MSb/MSw1。另一种情况是处理确实有作用,组间均方是由于误差与不同处理共同导致的结果,即各样本来自不同总体。那么,MSb>>MSw(远远大于)

MSb/MSw比值构成F分布。用F值与其临界值比较,推断各样本是否来自相同的总体。

3. 卡方检验

统计样本的实际观测值与理论推断值之间的偏离程度。卡方值越大,偏离越大,卡方值越小,偏离越小,完全符合时,卡方值为0

适用于计数资料的检验

fi为第i个区间真实值的个数,所有组频数之和为n

pi为第i个区间的概率,npi为理论频数

卡方统计量 0假设成立的情况下服从自由度为k-1的卡方分布。

1) 独立样本四格表的检验方法(2*2)

应用条件:样本含量应大于40且每个格子中的理论频数不应小于5

自由度 = (行数-1*(列数-1

计算理论数(TRC)TRC=nR.nC/n

TRC是表示第RC列格子的理论数,nR为理论数同行的合计数,nC为与理论数同列的合计数,n为总例数。

使用专用公式求卡方值



卡方值表在自由度大于1,理论数均大于5时近似良好,当自由度为1,理论数小于5,而总数大于40时,需要使用校正公式:

A为实际值,T为理论值

 

对于四格表,使用

1) 多组之间的显著性检验



1. z检验

2. 秩和检验

 

来源:

[1]http://baike.baidu.com/link?url=z8OVf79_L3zrRDxfn6BJSK04UC_6-C9CDm1oyYvXtHnqHaTJ9hyehRRHB9YX6UTOtSd6EASSYx-QuI5_923D4a

[2] http://www.ruanyifeng.com/blog/2013/01/poisson_distribution.html 

[3] http://www.cnblogs.com/emanlee/archive/2008/10/25/1319569.html 



0 0
原创粉丝点击