Multiple comparison

来源：互联网发布：羽戈知乎编辑：程序博客网时间：2024/04/28 16:07

Introduction

在做多重比较（multiple comparison）时，由于要在同一个数据集上检验多个结论，会导致犯第一类错误的概率大大增加。假设只做一次检验时的显著性水平为0.05，即接受备择假设的允许犯错概率为5%，那么保留原假设的犯错概率就是95%. 如果在同一个数据集上做了n次独立检验，那么n次都不犯第一类错误的概率是（0.95）^n，于是这n次中至少有一次犯了第一类错误的概率是1－（0.95）^n. 当n增大时，显然1－（0.95）^n也会增大，例如当n＝10，1－（0.95）^10=0.40（约等于）, 即对同一数据集做10次检验假设的犯错概率上升为40%，远远大于实际可以忍受的5%的犯错概率。

Methods

（1）Bonferronni校正

α'≈α/c;

在这一修正下，单次检验的显著性水平设定为总体的显著性水平（如0.05）的1/n （如n＝10，则单次检验的接受概率变为0.005）。在各次检验独立的情况下。Bonferroni修正实际上是更一般的Sidak修正的Taylor展开式的第一项，因而更保。Bonferroni correction 在概率论上的一个理论基础是Boole's inequality, 即布尔不等式。这是说，假定一些事件组成了一个可数的集合，那么这集合中的至少一个事件发生的概率不大于每个事件发生的概率的和。

（2）Sidak校正

α'=1-(1-α)^c
α’ 是开头讲的1类累计误差；则公式可以变形为:
α=1-(1-α’)^1/c
这方法用在当确定了我们需要的显著性水平α后，来求实际的α值，将我们确定的α带入α’中，如前面的例子α=0.05，带入α’中，求得1-(1-0.05)^1/10 =0.005；则实际我们用的α值应设为0.00512619…，也就约等于0.005。和Bonferonni的结果近似，0.05/10=0.005 。但是α=1-(1-α’)^1/c ≧ α’/c,这里也看出了Bonferonni校正过于保守。

《From: Hervé Abdi: The Bonferonni and Šidák Corrections forMultiple Comparisons.》

（3）Hochberg校正

将原始P 值按照大小排序:p(1) ≦ p(2)… ≦ p(k) ≦p(m);k从1到m;
p(k) ≦α/ (m - k+ 1);
the largest k ;
《From: Hochberg, Yosef (1988). “A Sharper Bonferroni Procedure for Multiple Tests of Significance”》

（4）FDR校正

Benjamini和Hochberg(1995)提出了一种新的错误测度FDR。

sort p-values in ascending order

for i← 1 tonumber of p-values do

if pi> (i÷ numberof p-values) ×α

return (i÷ numberof p-values) ×α

《From： Chih-HaoHsu, Yu Zhang, Ross Hardison, and Webb Miller：Whole-Genome Analysis of Gene Conversion Events》

（5）BH校正——加权

Weighted version
Let p1,..., pk be the unadjusted p-values and let w1,..., wk be a set of corresponding positive weights that add to 1. Without loss of generality, assume the p-values and the weights are all ordered such that p1/w1 ≤ p2/w2 ≤ ... ≤ pk/wk.The adjusted p-value for the first hypothesis is q1 = min{1,p1/w1}. Inductively, define the adjusted p-value for hypothesis i by qi = min{1,max{qi−1,(wi + ... + wk)×pi/wi}}.

《From wiki》