统计假设检验基础知识

来源：互联网发布：计算留存率sql语句编辑：程序博客网时间：2024/04/29 10:27

原文地址：统计假设检验基础知识作者：Nachex

统计假设检验有很多，从大的方面包括参数检验与非参数检验。参数检验有我们常见的关于方程模型显著性检验的F检验，方程参数的T检验等；而非参数检验中比较常见的则包括符号检验、秩和检验以及游程检验。提到参数检验时，不得不说的一个概念就是P-值，也就是SAS&SPSS等统计软件输出结果中的做sig.值，到底什么是sig.值是什么，它与我们平时所熟悉的概率P有什么关系，最初它是怎样形成的……提到这些，不得不提到的概念有上分位点、两类错误（弃真和纳伪）以及阀值K又是怎样一回事？下面我将一一道来：

显著性水平检验原理（转） - HappyFranc - HappFranc

图1 α值与P值的关系图

一、相关统计概念

1.上分位点

学统计的同学都知道正态分布，而上分位点的由来正与正态分布有关。最初由标准正态分布由来，随后扩展到t分布，F分布,卡方等其他分布。下面以标准正态分布为例，设X~N（0,1），若Z_α满足条件

P{X>Z_α}=α，0<α<1

则称点Z_α为标准正态分布的上α分位点，例如：Z_0.05=1.645，Z_0.005=2.57，Z_0.001=3.10

2.两类错误

简单的讲两类错误是指第一类错误："弃真"错误（其发生的概率常用α表示）；第二类错误："取伪"错误（其发生的概率常用β表示）。

显著性水平检验原理（转） - HappyFranc - HappFranc

3.阀值（阈值）　

这里的阀值与箱型图中的阀值意思相同，都是与判断标准相关的一个临界值，由于使用目的的不同，致使形态上有些许差别。例如在检验样本均值与总体均值是否有差别时，与检验统计量比较的临界值k（这里姑且先这样定义），就是阀值。

4.显著性水平

假设检验运用了小概率原理，事先确定的作为判断的界限，即允许的小概率的标准，称为显著性水平。如果根据命题的原假设所计算出来的概率小于这个标准，就拒绝原假设；大于这个标准则接受原假设。这样显著性水平把概率分布分为两个区间：拒绝区间，接受区间。（通常假设检验时只考虑到了第一类错误，而忽视掉了第二类错误，所以将此时的假设检验称为显著性检验）

二、相关概念与P值

前面讲了那么多的统计概念，貌似与P值没什么关联，下面回到文章最初提到的问题，看看上面提到的各种概念和P值（sig.值）是怎样联系起来的，下面以正态分布均值检验为例进行说明：

显著性水平检验原理（转） - HappyFranc - HappFranc

假设检验的原理清楚了（上面的例子针对正态分布方差已知的情况，其他参数检验只是参照的检验统计量不同罢了），同样由上面的原理可推导出另一种检验—P值检验，P值检验是国际上流行的检验格式。该格式是通过计算P值，再将它与显著性水平α作比较，决定拒绝还是接受原假设。所谓P值就是拒绝原假设所需的最低显著性水平。P值判断的原则是：如果P值小于给定的显著性水平α，则拒绝原假设，否则，接受原假设。或者，更加直观的原则是：如果P值很小，拒绝Ho,P值很大，接受Ho.P值检验为计算机进行统计分析带来方便，P值检验无需针对不同的显著性水平，先查分布表确定临界值，然后才能进行检验判断。

在SPSS统计软件中，不论是哪个检验程序，其所显示的P值都是双尾检验的结果。若使用者欲进行的是单尾检验，其程序与双尾检验相同，但所得到的P值自行除以2，再与期望的显著水平相比较。SAS&SPSS等统计软件常用*号表示显著性水平的程度，通常一个*号表示0.1的显著水平，两个**表示0.05的显著水平。

0 0