统计数字会撒谎笔记

来源:互联网 发布:win10开机启动软件 编辑:程序博客网 时间:2024/04/27 20:23

内在有偏的样本


  • 案例叙述

“1924 级的耶鲁毕业生平均年收入有 25111 美元。”
我们发现这个数据的两点可疑之处:它惊人地精确;它大得令人难以置信。


当问及收入时,有些人出于虚荣或天生乐观而夸大数据;
有些人却故意缩小数字;
也许这两种趋势——夸大与缩小将相互抵消,但这种可能性极小。
一般而言,一种趋势总会强于另一种趋势,但我们无从猜测哪种趋势较强。


  • 抽样带来的问题

常识告诉我们单凭某一数据很难反映实情,这是我们得到的结论。
最大的误差来源在哪儿?


这是一个抽样过程,在你所遇到各种各样的课题中,大部分统计问题的核心便是抽样。
抽样的原理本身很简单.但实践中对其进行的加工导致了许多副作用,有些是不正确的。举个例子,如果你有一桶豆子,有红色、有白色.那么,红色的豆子到底有多少呢?解决的办法只有一种:数豆子。然而,用一种更简单的方法,你也可以得到红豆数目的近似结果:抓一把豆子,计算其中红豆的比例,这把豆子中红豆的比例与一桶的比例基本相同。


因此,这个收入数据是建立在一个由能够取得联系并愿意回答问卷的耶鲁学生组成的样本之上的。那么,这个样本具有代表性吗?也就是说,能否假设这个样本与样本未被包括的人具有同样的收入水平?


统计是一种手段,用来实现你的目的,数据都是真实的,但是指标不一定是真实的。

0 0
原创粉丝点击