班门弄斧的写统计-置信区间的自我总结

来源:互联网 发布:黑暗之魂3最帅捏脸数据 编辑:程序博客网 时间:2024/06/05 18:12

为了进入数据科学家的行列,大把年纪又重新来看统计的东西。最近在面试和实际工作中发现,经常要去说置信区间的问题。这个统计学里面的一个很常见但是非常基础的概念,不少人(甚至我面的一个Cornell的统计硕士)都完全理解错误。所以这里自己看了不少东西,总结出来留下爪印。

遵循CSDN上牛人的建议,先从Wiki入手,然后去看经典的书和论文,以及一堆搜出来的东西。非统计出身,所以这里就不列一堆数学公式了,尽量用普通的话语来解释。


首先,置信区间是统计中对人群(Population)的真值尽心估计的方法的范畴,是相对于点估计的。

点估计,通俗来说,就是用样本的统计值来直接估计人群真值。比如用样本的均值就作为人群的均值。这样做的好处是简单容易理解,但是因为统计学里无处不在的变化(Variant),样本的值跟真值是肯定会有偏差的。而且采样的不同,每次出现的点估计都不一样,这样就不具有说服力和可信度。

所以,为了避免点估计的问题,出现了区间估计的方法。具体的计算置信区间的方法我就不在这里写了,包括已知总体人群的方差和未知等情况的技术。请大家自行搜。

区间估计是用一个区间[区间下限,区间上限]来说明,以某个预先设定的可信度(Confidence Level),来表明人群的真值或者落在这个区间里,或者不是。这里大师们特别强调的是这个either or的概念。因为下面会说的很多错误的理解都出现在这个概念上。这个区间并不是人群真值落在某个特定区间里面的概率而是真值落在一堆这样的区间里面的可能性的概率

需要明确的是,每一次抽样统计都会产生一个置信区间,不同次的抽样产生的区间是不同的。而且即使是同一次抽样统计,不同的区间设定方法也会产生不一样的区间。所以某个特定的区间是不能用来表明真值落在这个区间的概念的,只能是或者在这里面,或者不在。

既然是0或1的说法,那么我们通常说的置信区间的置信度又如何理解哪?

刚刚说了,不同的抽样会产生不同的区间,那么比如20次抽样就产生了20个不同的置信区间。如果我们设定置信度为95%,那么这20个区间里就有95%的,19个区间,包含有真值,而有一个区间不包含。


常见的错误理解,以95%置信度为例表述:

  1. 人群真值有95%的可能性落着某个样本产生的执行区间里。最常见的错误理解,在上面已经解释了。
  2. 95%的置信区间表明,样本的95%值都落在这个区间里。另外一个常见错误,这个区间的产生跟是否一致真值方差有关,所以不是样本测量值的分布。
  3. 置信区间是样本的均值可能的存在的范围。这个区间是对人群真值的一个估计,并不是样本的测量值的分布。
  4. 通过某个抽样获得了95%置信区间,如果再进行一样的重复抽样和计算,有95%的可能性,重复抽样产生的样本均值会落在这个区间里。很绕的一个错误理解,其实某个置信区间只与自己的样本相关,跟其他的抽样没有必然的概率关系。


相关资料

Wiki的链接。link

人大版的《统计学(第六版)》,贾俊平 等编著。Page 155.

浙大版《概率论与数理统计(第四版)》,盛骤 等边。Page 161

0 0
原创粉丝点击