数据会骗人:辛普森悖论
来源:互联网 发布:windows 内存分析工具 编辑:程序博客网 时间:2024/06/06 00:34
当人们尝试探究两种变量是否具有相关性的时候,比如新生录取率与性别,报酬与性别等,会分别对之进行分组研究。辛普森悖论是在这种研究中,在某些前提下有时会产生的一种现象。即在分组比较中都占优势的一方,会在总评中反而是失势的一方。该现象于20世纪初就有人讨论,但一直到1951年E.H.辛普森在他发表的论文中,该现象才算正式被描述解释。后来就以他的名字命名该悖论。
一所美国高校的两个学院,分别是法学院和商学院,新学期招生。人们怀疑这两个学院有性别歧视。现作如下统计:
法学院
性别商学院
性别根据上面两个表格来看,女生在两个学院都被优先录取。即女生的录取比率较高。现在将两学院的数据汇总:
性别在总评中,女生的录取比率反而比男生低。
上面的数字太凌乱,可以直接看下面的数据:
借助一幅向量图可以更好的了解情况
女生单独两个矢量斜率都比男生大,说明它们的比率都比较高。但最后男生总体向量斜率却大于女生
这个例子说明,简单的将分组数据相加汇总,是不能反映真实情况的。
就上述例子说,导致辛普森悖论有两个前提。
为了避免辛普森悖论的出现,就需要斟酌各分组的权重,并乘以一定的系数去消除以分组数据基数差异而造成的影响。同时必需了解清楚情况,是否存在潜在因素,综合考虑。
参考地址:
http://zh.wikipedia.org/wiki/%E8%BE%9B%E6%99%AE%E6%A3%AE%E6%82%96%E8%AE%BA
http://plato.stanford.edu/entries/paradox-simpson/#Causation
- 数据会骗人:辛普森悖论
- 数据分析中的辛普森悖论
- 思维会骗人,程序不骗人。
- 【微信运营】数据是会骗人的!赶紧揪住骗子!
- 辛普森悖论
- 辛普森悖论的解释
- 悖论
- 悖论
- 悖论
- 悖论
- 白手起家学习数据科学 ——Statistics之“相关性和辛普森悖论篇”(三)
- Simpson悖论及数据挖掘研究应用
- 骗人喽!
- 骗人啊
- 辛普森悖论:一个反直觉的统计现象
- 恋爱悖论
- 经典悖论
- 芝诺悖论
- 每个程序员1小时内必须解决的5个编程问题--解答代码
- 有时候没必要用回调
- 30-mysql-proxy完成负载均衡与读写分离
- PPPOE协议原理与分析
- opencv 30ms一帧播放视频
- 数据会骗人:辛普森悖论
- 治疗日晒斑的最好方法有哪些
- PPPOE源码分析
- 软件系统架构
- 治疗日晒斑的最好方法有哪些
- n&(n-1)作用
- 轻量级Java EE企业应用实战-----6、Hibernate映射文件
- ruby安装
- java Date类型24小时制和12小时制