“大海捞针”式相关性分析的错误
来源:互联网 发布:淘宝申请小二介入 编辑:程序博客网 时间:2024/05/16 08:27
实施CMMI高成熟时需要建立过程性能模型,如果采用了回归分析的方法,则其前提是x与y是相关的,首先要找到与y相关的x。而有的组织在寻找与y相关的x时,采用了一种“大海捞针”式的建模方法,即罗列出来所有采集的度量元数据,指定其中一个度量元作为y,然后在MINITAB中直接建立其他所有的度量元与该y的相关性分析矩阵,从中选择出与该y相关的变量,再去尝试建立回归方程。这种海选式建立回归方程的方法费时费力,还未必正确,其突出的问题如下:
1 没有识别正确的因果关系。
两个变量有相关关系未必有因果关系。采用这种“大海捞针” 式方法可以找到与y有相关关系的因子,但是和y未必有因果关系,而在过程性能模型中,一定要有某个x与y是要有因果关系的!y是我们的管理目标,x是影响目标达成的因子。因果关系要符合我们经验常识,符合常理,有时尽管两个数据之间有相关性,但是他们可能是由另外一个变量同时影响而导致的同步变化。
2 可能漏识别了某些非线形关系。
在进行相关性分析之前,应该先画散点图,通过散点图识别出是线性关系还是非线形关系,然后再进行相关性系数的计算。比如如下的数据,通过散点图我们可以看到他们是曲线相关的。如果直接计算相关性系数则是不合适的:
表一 曲线相关的样例数据
图一 曲线相关的散点图
直接计算相关性系数如下:
相关:y, x
y 和 x 的 Pearson 相关系数 = -0.225
P 值 =0.402
3 相关性系数计算的前提是双变量都是符合正态分布的。
直接计算相关性系数,而没有事先判断是否服从正态分布,即使计算出的p值<0.05也可能是不相关的,例如如下的一组数据:
表二:不相关的样例数据
X是不服从正态分布的:
图二:x的概率图
y也是不服从正态分布的:
图三 y的概率图
x与y 也是不相关的:
图四 x与y的散点图
但是,如果我们做相关性分析,就会发现二者是相关的:
相关:x, y
x 和 y 的 Pearson 相关系数 = 0.594
P 值 =0.006
当我们做相关性分析时,正确的做法应该是:
1 根据经验常识识别候选的与y相关的x;
2 采集x与y的历史数据;
3 对x与y分别画箱线图,删除离群点;
4 画散点图分析x与y的趋势,判断:
1) 是否相关;
2) 是线性相关还是曲线相关;
3) 有无趋势的离群点;
5 如果是曲线相关,则需要对x 或 y 做变换,转换为线性相关;
6 如果不服从正态分布,则也需求对x或y做变换,要求这2个变量必须都要服从正态分布;
7 然后计算相关性系数,判断是否显著,即是否p<=0.05;
- “大海捞针”式相关性分析的错误
- 数据的相关性分析
- 相关性分析
- 亲和性分析,分析物品之间的相关性
- 系统服务与应用程序相关性的分析
- 系统服务与应用程序相关性的分析
- 关于MATLAB图像相关性分析的问题
- 文章相关性分析
- 相关性分析方法
- ARCGIS空间相关性分析
- SparkML之相关性分析
- Spss做相关性分析
- numpy相关性分析
- CCA 协方差&相关性分析
- 五年心血: 系统服务与应用程序相关性的分析
- 不同相关性度量方法的线上效果对比与分析
- 源码分析-java-Vector、Stack-与ArrayList的相关性
- 回归分析的基本步骤与自相关性
- Windows10下的docker安装与入门 (一)使用docker toolbox安装docker
- OpenJDK的编译(Deepin15 平台)
- 淘宝开放平台 获取商品信息api权限获取
- 接口文档格式
- VC中如何显示一张位图
- “大海捞针”式相关性分析的错误
- Python中给List添加元素的4种方法分享
- 固定大小容器中显示图片,图片缩放后显示中间位置,不变型的实现。
- [git] warning: LF will be replaced by CRLF | fatal: CRLF would be replaced by LF
- 【SMS】SMS协议介绍之SMS-GMSC
- HDU1205 吃糖果【水题】
- 绝对路径和相对路径、cd、mkdir+mrdir、rm命令
- Lua学习笔记
- 政务大数据中心不仅要 “建起来” 更要“用起来”