“大海捞针”式相关性分析的错误

来源:互联网 发布:淘宝申请小二介入 编辑:程序博客网 时间:2024/05/16 08:27

    实施CMMI高成熟时需要建立过程性能模型,如果采用了回归分析的方法,则其前提是x与y是相关的,首先要找到与y相关的x。而有的组织在寻找与y相关的x时,采用了一种“大海捞针”式的建模方法,即罗列出来所有采集的度量元数据,指定其中一个度量元作为y,然后在MINITAB中直接建立其他所有的度量元与该y的相关性分析矩阵,从中选择出与该y相关的变量,再去尝试建立回归方程。这种海选式建立回归方程的方法费时费力,还未必正确,其突出的问题如下:

    1 没有识别正确的因果关系。

    两个变量有相关关系未必有因果关系。采用这种“大海捞针” 式方法可以找到与y有相关关系的因子,但是和y未必有因果关系,而在过程性能模型中,一定要有某个x与y是要有因果关系的!y是我们的管理目标,x是影响目标达成的因子。因果关系要符合我们经验常识,符合常理,有时尽管两个数据之间有相关性,但是他们可能是由另外一个变量同时影响而导致的同步变化。

 

    2 可能漏识别了某些非线形关系。

    在进行相关性分析之前,应该先画散点图,通过散点图识别出是线性关系还是非线形关系,然后再进行相关性系数的计算。比如如下的数据,通过散点图我们可以看到他们是曲线相关的。如果直接计算相关性系数则是不合适的:

    表一 曲线相关的样例数据

       

  


图一 曲线相关的散点图

    直接计算相关性系数如下:

    相关:y, x

 

    y 和 x 的 Pearson 相关系数 = -0.225

    P 值 =0.402

 

    3 相关性系数计算的前提是双变量都是符合正态分布的。

    直接计算相关性系数,而没有事先判断是否服从正态分布,即使计算出的p值<0.05也可能是不相关的,例如如下的一组数据:

    表二:不相关的样例数据

       

    X是不服从正态分布的:


    

图二:x的概率图

     y也是不服从正态分布的:



图三 y的概率图

    x与y 也是不相关的:


图四 x与y的散点图

    但是,如果我们做相关性分析,就会发现二者是相关的:

    相关:x, y

 

    x 和 y 的 Pearson 相关系数 = 0.594

    P 值 =0.006

 

    当我们做相关性分析时,正确的做法应该是:

    1 根据经验常识识别候选的与y相关的x;

    2 采集x与y的历史数据;

    3 对x与y分别画箱线图,删除离群点;

    4 画散点图分析x与y的趋势,判断:

        1)    是否相关;

        2)    是线性相关还是曲线相关;

        3)    有无趋势的离群点;

    5 如果是曲线相关,则需要对x 或 y 做变换,转换为线性相关;

    6 如果不服从正态分布,则也需求对x或y做变换,要求这2个变量必须都要服从正态分布;

    7 然后计算相关性系数,判断是否显著,即是否p<=0.05;


原创粉丝点击