班门弄斧的写统计-置信区间的自我总结
来源:互联网 发布:黑暗之魂3最帅捏脸数据 编辑:程序博客网 时间:2024/06/05 18:12
为了进入数据科学家的行列,大把年纪又重新来看统计的东西。最近在面试和实际工作中发现,经常要去说置信区间的问题。这个统计学里面的一个很常见但是非常基础的概念,不少人(甚至我面的一个Cornell的统计硕士)都完全理解错误。所以这里自己看了不少东西,总结出来留下爪印。
遵循CSDN上牛人的建议,先从Wiki入手,然后去看经典的书和论文,以及一堆搜出来的东西。非统计出身,所以这里就不列一堆数学公式了,尽量用普通的话语来解释。
首先,置信区间是统计中对人群(Population)的真值尽心估计的方法的范畴,是相对于点估计的。
点估计,通俗来说,就是用样本的统计值来直接估计人群真值。比如用样本的均值就作为人群的均值。这样做的好处是简单容易理解,但是因为统计学里无处不在的变化(Variant),样本的值跟真值是肯定会有偏差的。而且采样的不同,每次出现的点估计都不一样,这样就不具有说服力和可信度。
所以,为了避免点估计的问题,出现了区间估计的方法。具体的计算置信区间的方法我就不在这里写了,包括已知总体人群的方差和未知等情况的技术。请大家自行搜。
区间估计是用一个区间[区间下限,区间上限]来说明,以某个预先设定的可信度(Confidence Level),来表明人群的真值或者落在这个区间里,或者不是。这里大师们特别强调的是这个either or的概念。因为下面会说的很多错误的理解都出现在这个概念上。这个区间并不是人群真值落在某个特定区间里面的概率。而是真值落在一堆这样的区间里面的可能性的概率。
需要明确的是,每一次抽样统计都会产生一个置信区间,不同次的抽样产生的区间是不同的。而且即使是同一次抽样统计,不同的区间设定方法也会产生不一样的区间。所以某个特定的区间是不能用来表明真值落在这个区间的概念的,只能是或者在这里面,或者不在。
既然是0或1的说法,那么我们通常说的置信区间的置信度又如何理解哪?
刚刚说了,不同的抽样会产生不同的区间,那么比如20次抽样就产生了20个不同的置信区间。如果我们设定置信度为95%,那么这20个区间里就有95%的,19个区间,包含有真值,而有一个区间不包含。
常见的错误理解,以95%置信度为例表述:
- 人群真值有95%的可能性落着某个样本产生的执行区间里。最常见的错误理解,在上面已经解释了。
- 95%的置信区间表明,样本的95%值都落在这个区间里。另外一个常见错误,这个区间的产生跟是否一致真值方差有关,所以不是样本测量值的分布。
- 置信区间是样本的均值可能的存在的范围。这个区间是对人群真值的一个估计,并不是样本的测量值的分布。
- 通过某个抽样获得了95%置信区间,如果再进行一样的重复抽样和计算,有95%的可能性,重复抽样产生的样本均值会落在这个区间里。很绕的一个错误理解,其实某个置信区间只与自己的样本相关,跟其他的抽样没有必然的概率关系。
相关资料
Wiki的链接。link
人大版的《统计学(第六版)》,贾俊平 等编著。Page 155.
浙大版《概率论与数理统计(第四版)》,盛骤 等边。Page 161
- 班门弄斧的写统计-置信区间的自我总结
- 置信区间的总结
- 班门弄斧一次VC++.NET 2008写的HOOK RECV代码
- 自己写的第一本Linux教程,也小小的班门弄斧一下
- 3个月没有写文章的一段自我总结
- 二项分布比例的置信区间计算
- 单样本和两样本的统计推断:置信区间和假设检验
- 对自我的总结
- 乱七八糟的自我总结
- dialog的自我总结
- 简单的自我总结
- AJAX的自我总结
- java的自我总结
- oracle的自我总结
- 自我总结的HTML
- CSS的自我总结!
- 概率统计基础-置信区间
- 置信区间的应用--网络波动的判断
- linux命令之tee
- 2.构建一个简单的文本编辑器
- c++中的强制转换static_cast、dynamic_cast、reinterpret_cast
- 对内部类引用外部方法变量需用final修饰的理解
- 3.添加菜单
- 班门弄斧的写统计-置信区间的自我总结
- 类加载器内存泄露与tomcat自定义加载器
- 升级10.11后使用CocoaPod出现-bash: pod: command not found 解决办法
- ARC 与非 ARC 之间那些的'祸害'
- Telnet登录Ubuntu
- LeetCode 263:Ugly Number
- 【100字自我总结】
- 关于小圆点的制作(About how to make the dots)(-)
- nc在centos7上的安装和简单使用