方差分析

来源：互联网发布：医用弹力绷带淘宝编辑：程序博客网时间：2024/04/28 06:53

单样本t检验是检验一个样本平均数与一个已知的总体平均数的差异是否显著。当总体分布是正态分布，如总体标准差未知且样本容量小于30，那么样本平均数与总体平均数的离差统计量呈t分布。

独立样本T检验用于独立样本平均数的显著性检验。各实验处理组之间毫无相关存在，即为独立样本。该检验用于检验两组非相关样本被试所获得的数据的差异性，他需要数据的总体符合正态分布所以在进行T检验前要先对数据进行正态性检验

配对样本T检验是用于相关样本平均数差异的显著性检验，用于检验匹配而成的两组被试获得的数据或同组被试在不同条件下所获得的数据的差异性，这两种情况组成的样本即为相关样本

单因素

单因素方差分析：

（一）单因素方差分析概念理解步骤

是用来研究一个控制变量的不同水平是否对观测变量产生了显著影响。这里，由于仅研究单个因素对观测变量的影响，因此称为单因素方差分析。

例如，分析不同施肥量是否给农作物产量带来显著影响，考察地区差异是否影响妇女的生育率，研究学历对工资收入的影响等。这些问题都可以通过单因素方差分析得到答案。

单因素方差分析的第一步是明确观测变量和控制变量。例如，上述问题中的观测变量分别是农作物产量、妇女生育率、工资收入；控制变量分别为施肥量、地区、学历。

单因素方差分析的第二步是剖析观测变量的方差。方差分析认为：观测变量值得变动会受控制变量和随机变量两方面的影响。据此，单因素方差分析将观测变量总的离差平方和分解为组间离差平方和和组内离差平方和两部分，用数学形式表述为：SST=SSA+SSE。

单因素方差分析的第三步是通过比较观测变量总离差平方和各部分所占的比例，推断控制变量是否给观测变量带来了显著影响。

（二）单因素方差分析原理总结

容易理解：在观测变量总离差平方和中，如果组间离差平方和所占比例较大，则说明观测变量的变动主要是由控制变量引起的，可以主要由控制变量来解释，控制变量给观测变量带来了显著影响；反之，如果组间离差平方和所占比例小，则说明观测变量的变动不是主要由控制变量引起的，不可以主要由控制变量来解释，控制变量的不同水平没有给观测变量带来显著影响，观测变量值的变动是由随机变量因素引起的。

（三）单因素方差分析基本步骤

1、提出原假设：H0——无差异；H1——有显著差异

2、选择检验统计量：方差分析采用的检验统计量是F统计量，即F值检验。

3、计算检验统计量的观测值和概率P值：该步骤的目的就是计算检验统计量的观测值和相应的概率P值。

4、给定显著性水平，并作出决策

（四）单因素方差分析的进一步分析

在完成上述单因素方差分析的基本分析后，可得到关于控制变量是否对观测变量造成显著影响的结论，接下来还应做其他几个重要分析，主要包括方差齐性检验、多重比较检验。

1、方差齐性检验

是对控制变量不同水平下各观测变量总体方差是否相等进行检验。

前面提到，控制变量不同各水平下观测变量总体方差无显著差异是方差分析的前提要求。如果没有满足这个前提要求，就不能认为各总体分布相同。因此，有必要对方差是否齐性进行检验。

SPSS单因素方差分析中，方差齐性检验采用了方差同质性（homogeneity of variance）检验方法，其原假设是：各水平下观测变量总体的方差无显著差异。

2、多重比较检验

单因素方差分析的基本分析只能判断控制变量是否对观测变量产生了显著影响。如果控制变量确实对观测变量产生了显著影响，进一步还应确定控制变量的不同水平对观测变量的影响程度如何，其中哪个水平的作用明显区别于其他水平，哪个水平的作用是不显著的，等等。

例如，如果确定了不同施肥量对农作物的产量有显著影响，那么还需要了解10公斤、20公斤、30公斤肥料对农作物产量的影响幅度是否有差异，其中哪种施肥量水平对提高农作物产量的作用不明显，哪种施肥量水平最有利于提高产量等。掌握了这些重要的信息就能够帮助人们制定合理的施肥方案，实现低投入高产出。

多重比较检验利用了全部观测变量值，实现对各个水平下观测变量总体均值的逐对比较。由于多重比较检验问题也是假设检验问题，因此也遵循假设检验的基本步骤。

检验统计量的构造方法

（1）LSD方法

LSD方法称为最小显著性差异（Least Significant Difference）法。最小显著性差异法的字画就体现了其检验敏感性高的特点，即水平间的均值只要存在一定程度的微小差异就可能被检验出来。

正是如此，它利用全部观测变量值，而非仅使用某两组的数据。LSD方法适用于各总体方差相等的情况，但它并没有对犯一类错误的概率问题加以有效控制。

（2）S-N-K方法

S-N-K方法是一种有效划分相似性子集的方法。该方法适合于各水平观测值个数相等的情况，

3、其他检验

（1）先验对比检验

在多重比较检验中，如果发现某些水平与另外一些水平的均值差距显著，如有五个水平，其中x1、x2、x3与x4、x5的均值有显著差异，就可以进一步分析比较这两组总的均值是否存在显著差异，即1/3(x1+x2+x3)与1/2(x4+x5)是否有显著差异。这种事先指定各均值的系数，再对其线性组合进行检验的分析方法称为先验对比检验。通过先验对比检验能够更精确地掌握各水平间或各相似性子集间均值的差异程度。

（2）趋势检验

当控制变量为定序变量时，趋势检验能够分析随着控制变量水平的变化，观测变量值变化的总体趋势是怎样的，是呈现线性变化趋势，还是呈二次、三次等多项式变化。通过趋势检验，能够帮助人们从另一个角度把握控制变量不同水平对观测变量总体作用的程度。

多因素

多因素方差分析：

（一）多因素方差分析基本思想

多因素方差分析用来研究两个及两个以上控制变量是否对观测变量产生显著影响。这里，由于研究多个因素对观测变量的影响，因此称为多因素方差分析。多因素方差分析不仅能够分析多个因素对观测变量的独立影响，更能够分析多个控制因素的交互作用能否对观测变量的分布产生显著影响，进而最终找到利于观测变量的最优组合。

例如：

分析不同品种、不同施肥量对农作物产量的影响时，可将农作物产量作为观测变量，品种和施肥量作为控制变量。利用多因素方差分析方法，研究不同品种、不同施肥量是如何影响农作物产量的，并进一步研究哪种品种与哪种水平的施肥量是提高农作物产量的最优组合。

（二）多因素方差分析的其他功能

1、均值检验

在SPSS中，利用多因素方差分析功能还能够对各控制变量不同水平下观测变量的均值是否存在显著差异进行比较，实现方式有两种，即多重比较检验和对比检验。多重比较检验的方法与单因素方差分析类似。对比检验采用的是单样本t检验的方法，它将控制变量不同水平下的观测变量值看做来自不同总体的样本，并依次检验这些总体的均值是否与某个指定的检验值存在显著差异。其中，检验值可以指定为以下几种：

观测变量的均值（Deviation）;

第一水平或最后一个水平上观测变量的均值（Simple）;

前一水平上观测变量的均值（Difference）;

后一水平上观测变量的均值（Helmert）。

2、控制变量交互作用的图形分析

控制变量的交互作用可以通过图形直观分析。

（三）多因素方差分析的进一步分析

在上述案例中，已经对广告形式、地区对销售额的影响进行了多因素方差分析，建立了饱和模型。由分析可知：广告形式与地区的交互作用不显著，先进一步尝试非饱和模型，并进行均值比较分析、交互作用图形分析。

1、建立非饱和模型

2、均值比较分析

3、控制变量交互作用的图形分析

协方差

协方差分析：

（一）协方差分析基本思想

通过上述的分析可以看到，不论是单因素方差分析还是多因素方差分析，控制因素都是可控的，其各个水平可以通过人为的努力得到控制和确定。但在许多实际问题中，有些控制因素很难人为控制，但它们的不同水平确实对观测变量产生了较为显著的影响。

协方差分析

例如，在研究农作物产量问题时，如果仅考察不同施肥量、品种对农作物产量的影响，不考虑不同地块等因素而进行方差分析，显然是不全面的。因为事实上有些地块可能有利于农作物的生长，而另一些却不利于农作物的生长。不考虑这些因素进行分析可能会导致：即使不同的施肥量、不同品种农作物产量没有产生显著影响，但分析的结论却可能相反。

再例如，分析不同的饲料对生猪增重是否产生显著差异。如果单纯分析饲料的作用，而不考虑生猪各自不同的身体条件（如初始体重不同），那么得出的结论很可能是不准确的。因为体重增重的幅度在一定程度上是包含诸如初始体重等其他因素的影响的。

（二）协方差分析的原理

协方差分析将那些人为很难控制的控制因素作为协变量，并在排除协变量对观测变量影响的条件下，分析控制变量（可控）对观测变量的作用，从而更加准确地对控制因素进行评价。

协方差分析仍然沿承方差分析的基本思想，并在分析观测变量变差时，考虑了协变量的影响，人为观测变量的变动受四个方面的影响：即控制变量的独立作用、控制变量的交互作用、协变量的作用和随机因素的作用，并在扣除协变量的影响后，再分析控制变量的影响。

方差分析中的原假设是：协变量对观测变量的线性影响是不显著的；在协变量影响扣除的条件下，控制变量各水平下观测变量的总体均值无显著差异，控制变量各水平对观测变量的效应同时为零。检验统计量仍采用F统计量，它们是各均方与随机因素引起的均方比。

（三）协方差分析的应用举例

为研究三种不同饲料对生猪体重增加的影响，将生猪随机分成三组各喂养不同的饲料，得到体重增加的数据。由于生猪体重的增加理论上会受到猪自身身体条件的影响，于是收集生猪喂养前体重的数据，作为自身身体条件的测量指标

T检验、方差分析的区别在哪？

t检验：是假设检验的一种常用方法，当方差未知时，可以用来检验一个正态总体或两个正态总体的均值检验假设问题，也可以用来检验成对数据的均值假设问题。具体内容可以参考《概率论与数理统计》。可以用来判断两组数倨差异是否有显著意义，也就是结果有没有统计学意义。

方差分析：它是处理实验研究资料时重要的分析方法之一，代表数据是否具有统计意义,
一般一组数据代表某个条件或因素,方差分析可以判断你选取的这个因素是否有意义,是不是影响因素
如果你做统计为了找到事物相关性,而方差结果显示数据无统计学差异,很可能代表实验失败或设计有问题。

在对均值进行假设检验时，一般有两种参数检验方法，即t检验与方差分析。t检验仅用在单因素两水平设计（包括配对设计和成组设计）和单组设计（给出一组数据和一个标准值的资料）的定量资料的均值检验场合；而方差分析用在单因素k水平设计（k≥3）和多因素设计的定量资料的均值检验场合。应当进一步说明的是，方差分析有十几种，不同的方差分析取决于不同的设计类型。很多人习惯于用t检验取代一切方差分析。
不能用t检验取代方差分析的情况
①单因素k（k≥3）水平设计时的情形。为了便于理解，举例说明。
[实例]研究单味中药对小鼠细胞免疫机能的影响，把40只小鼠随机均分为4组，每组10只，雌雄各半，用药15d后测定E-玫瑰结成率（%），结果如下，试比较各组总体均值之间的差别有无显著性意义？
对照组：    14  10  12  16  13  14  12  10  13  9
党参组：    21  24  18  17  22  19  18  23  20  18
黄芪组：    24  20  22  18  17  21  18  22  19  23
淫羊藿组：    35  27  23  29  31  40  35  30  28  36
处理本例资料，通常人们错误的做法是，重复运用成组设计资料的t检验对4个组的均值进行6次两两比较；而正确的做法是，先进行单因素4水平设计资料的方差分析，若4个总体均值之间的差别有显著性意义，再用q检验等方法进行多个均值之间的两两比较。下面将从多个方面来说明上述两种分析方法之间的差异（表1）。
表1    用t检验与方差分析处理[实例]资料的区别
比较的内容             资料的利用率                对原实验设计的影响             犯假阳性错误的概率          结论的可靠性
t检验                   低：每次仅用两组       残：割裂了整体设计          大：1-（1-0.05）6 = 0.265 低：统计量的自由度小（υ=18）
方差分析加q检验    高：每次要用全部数据    全：与原实验设计相呼应    小：0.05（假定α=0.05）    高：统计量的自由度大（υ=36）
注：自由度大，所对应的统计量的可靠性就高，它相当于“权重”，也类似于产生“代表”的基数，基数越大，所选出的“代表”就越具有权威性。
②多因素设计时的情形。为了便于理解，仍举例说明（表2）。
表2    注射氯化锂或烟碱后不同时间大鼠体温的下降值
使用氯化锂与否    使用烟碱与否             第二次注射后不同时间体温下降值（摄氏度）
                                                            0.7             1.5             3             5
—-                      —-                      0.0±0.4       0.2±0.5       0.1±0.4    0.3±0.5
   +                      —-                   0.7±0.5          0.1±0.5       0.1±0.6    0.2±0.5
—-                      +                      1.2±0.8          0.1±0.6       0.4±0.5    0.4±0.3

+                      +                      1.7±0.6          0.7±0.6       0.3±0.6    0.1±0.5


显然,表2中涉及到的3个实验因素(即”使用氯化锂与否”、“使用烟碱与否”、“药物在体内作用时间”)。这些因素之间一般都存在不同程度的交互作用，应当选用与设计类型（本例为具有一个重复测量的三因素设计）相对应的方差分析方法。然而，对于处置复杂的实验设计问题，人们常犯的错误是在；其一，将多因素各水平的不同组合（本例中共有16种不同的组合，相当于16种不同的实验条件）、简单地看作单因素的多个水平（即视为单因素16水平），混淆了因素与水平之间的区别，从而错误地确定了实验设计类型；其二，分析资料时，常错误用单因素多水平设计或仍采用多次t检验进行两两比较。误用这两种方法的后果是，不仅无法分析因素之间的交互作用的大小，而且，由于所选用的数学模型与设计不匹配，易得出错误的结论。

答：t检验适用于两个变量均数间的差异检验，多于两个变量间的均数比较要用方差分析。用于比较均值的t检验可以分成三类，第一类是针对[url=]单组[/url]设计定量资料的；第二类是针对配对设计定量资料的；第三类则是针对成组设计定量资料的。后两种设计类型的区别在于事先是否将两组研究对象按照某一个或几个方面的特征相似配成对子。无论哪种类型的t检验，都必须在满足特定的前提条件下应用才是合理的。　　若是单组设计，必须给出一个标准值或总体均值，同时，提供一组定量的观测结果，应用t检验的前提条件就是该组资料必须服从正态分布；若是配对设计，每对数据的差值必须服从正态分布；若是成组设计，个体之间相互独立，两组资料均取自正态分布的总体，并满足方差齐性。之所以需要这些前提条件，是因为必须在这样的前提下所计算出的t统计量才服从t分布，而t检验正是以t分布作为其理论依据的检验方法。　　值得注意的是，方差分析与成组设计t检验的前提条件是相同的，即正态性和方差齐性。　　t检验是目前医学研究中使用频率最高，医学论文中最常见到的处理定量资料的假设检验方法。t检验得到如此广泛的应用，究其原因，不外乎以下几点：现有的医学期刊多在统计学方面作出了要求，研究结论需要统计学支持；传统的医学统计教学都把t检验作为假设检验的入门方法进行介绍，使之成为广大医学研究人员最熟悉的方法；t检验方法简单，其结果便于解释。简单、熟悉加上外界的要求，促成了t检验的流行。但是，由于某些人对该方法理解得不全面，导致在应用过程中出现不少问题，有些甚至是非常严重的错误，直接影响到结论的可靠性。将这些问题归类，可大致概括为以下两种情况：不考虑t检验的应用前提，对两组的比较一律用t检验；将各种实验设计类型一律视为多个单因素两水平设计，多次用t检验进行均值之间的两两比较。以上两种情况，均不同程度地增加了得出错误结论的风险。而且，在实验因素的个数大于等于2时，无法研究实验因素之间的交互作用的大小。