班门弄斧的写统计-置信区间的自我总结

来源：互联网发布：黑暗之魂3最帅捏脸数据编辑：程序博客网时间：2024/06/05 18:12

为了进入数据科学家的行列，大把年纪又重新来看统计的东西。最近在面试和实际工作中发现，经常要去说置信区间的问题。这个统计学里面的一个很常见但是非常基础的概念，不少人（甚至我面的一个Cornell的统计硕士）都完全理解错误。所以这里自己看了不少东西，总结出来留下爪印。

遵循CSDN上牛人的建议，先从Wiki入手，然后去看经典的书和论文，以及一堆搜出来的东西。非统计出身，所以这里就不列一堆数学公式了，尽量用普通的话语来解释。

首先，置信区间是统计中对人群（Population）的真值尽心估计的方法的范畴，是相对于点估计的。

点估计，通俗来说，就是用样本的统计值来直接估计人群真值。比如用样本的均值就作为人群的均值。这样做的好处是简单容易理解，但是因为统计学里无处不在的变化（Variant），样本的值跟真值是肯定会有偏差的。而且采样的不同，每次出现的点估计都不一样，这样就不具有说服力和可信度。

所以，为了避免点估计的问题，出现了区间估计的方法。具体的计算置信区间的方法我就不在这里写了，包括已知总体人群的方差和未知等情况的技术。请大家自行搜。

区间估计是用一个区间[区间下限，区间上限]来说明，以某个预先设定的可信度（Confidence Level），来表明人群的真值或者落在这个区间里，或者不是。这里大师们特别强调的是这个either or的概念。因为下面会说的很多错误的理解都出现在这个概念上。这个区间并不是人群真值落在某个特定区间里面的概率。而是真值落在一堆这样的区间里面的可能性的概率。

需要明确的是，每一次抽样统计都会产生一个置信区间，不同次的抽样产生的区间是不同的。而且即使是同一次抽样统计，不同的区间设定方法也会产生不一样的区间。所以某个特定的区间是不能用来表明真值落在这个区间的概念的，只能是或者在这里面，或者不在。

既然是0或1的说法，那么我们通常说的置信区间的置信度又如何理解哪？

刚刚说了，不同的抽样会产生不同的区间，那么比如20次抽样就产生了20个不同的置信区间。如果我们设定置信度为95%，那么这20个区间里就有95%的，19个区间，包含有真值，而有一个区间不包含。

常见的错误理解，以95%置信度为例表述：

人群真值有95%的可能性落着某个样本产生的执行区间里。最常见的错误理解，在上面已经解释了。
95%的置信区间表明，样本的95%值都落在这个区间里。另外一个常见错误，这个区间的产生跟是否一致真值方差有关，所以不是样本测量值的分布。
置信区间是样本的均值可能的存在的范围。这个区间是对人群真值的一个估计，并不是样本的测量值的分布。
通过某个抽样获得了95%置信区间，如果再进行一样的重复抽样和计算，有95%的可能性，重复抽样产生的样本均值会落在这个区间里。很绕的一个错误理解，其实某个置信区间只与自己的样本相关，跟其他的抽样没有必然的概率关系。