数据分布未明确时的检验方法

来源:互联网 发布:2008 科比 知乎 编辑:程序博客网 时间:2024/05/29 17:24

通常,数据有一个比较明确的分布方式,如二项分布、正态分布等,也就存在针对具体分布方式的明确检验方法。
下面这些检验方式是在数据没有明确的分布方式的情况下使用的,相比有针对明确分布数据集的检验方式,效率更低,需要的样本量更大,更粗糙。一个数据集可以使用多种方式检验零假设,但只要有一种检验方式拒绝零假设,那就可以判定拒绝零假设。

符号检验

也叫sign test。在这篇文章中提到的身高的例子,在这里我们并不假设身高数据有任何分布形式。计算出样本中各数据与中位数的差值正负符号,然后用二项分布来检验假设。

质检部门抽检西洋参,厂商标明重量为100g,以下是抽取25包的称重结果。

res<-c(99.05,100.25,102.56,99.15,104.89,101.86,96.37,96.79,99.37,96.90,93.94,92.97,108.28,96.86,93.94,98.27,98.36,100.81,92.99,103.72,90.66,98.24,97.87,99.21,101.79)//样本中位数为98.36,我们怀疑中位数小于100。下面使用符号检验来检验该假设。//根据厂商标明的重量,可知总体中位数100。计算总体中位数100的情况下,该样本情况的出现概率。pbinom(sum(res>100),length(res),0.5)//p值为0.05387607,高于显著水平,无法确认我们的假设成立。

Wilcoxon符号秩检验

假设上述抽检数据基于中位数呈对称分布,下面使用Wilcoxon检验我们上面的假设。Wilcoxon把样本中位数左右的数据分别与样本中位数相减,并各自按差值的绝对值大小排序,得到秩。比较两边秩之和的大小,如果差距较大,则说明预估的中位数有问题。

//同样假设西洋参的重量中位数小于官方标明的100g,下面进行检验。wilcox.test(res,m=100,alternative = "less")//输出p值为:0.04763,小于显著水平0.05,可以拒绝零假设,从而确认我们的假设成立。//如果要比较两种西洋参的重量,可以分别抽样,然后使用Wilcoxon检验两个样本的中位数wilcox.test(res1,res2,alternative = "less")

游程检验

对于下面这样一组数据,检验一下0和1的出现是否随机。

data<-c(0,1,0,0,1,1,1,0,1,0,1,1,0,0,0,1);runs.test(factor(data));//R package安装失败,无法给出结果。如果p值小于显著水平0.05,可以判定0和1是随机出现,否则不能判定。
0 0
原创粉丝点击