无偏估计

来源：互联网发布：录制视频软件下载编辑：程序博客网时间：2024/06/06 01:13

先来给出一个公理：样本均值的期望等于总体均值。

举个例子吧：
现在甲市有一万名小学三年级学生，他们进行了一次统考，考试成绩服从1~100的均匀分布：00001号学生得1分，00002号学生得1.01分……10000号学生得100分。那么他们的平均分是多少？(1+1.01+1.02+....+100)/10000=50.5，这个值叫做总体平均数。

现在假定你是教委的一个基层人员，教委主任给你一个早上时间，让你估算一下全市学生的平均成绩，你怎么办？把全市一万名学生都问一遍再计算时间显然是来不及了，因此在有限的时间里，你找到了一个聪明的办法：给全市的78所小学每一所学校打了一个电话，让他们随机选取一名学生的成绩报上来，这样你就得到了78个学生的成绩，这78个学生就是你的样本。

你现在的任务很简单了，拿这78个学生的成绩相加并除以78，你就得到了样本平均数。你把这个数报告给教委主任，这个数就是你估算出来的全市平均成绩。

这个样本平均数会不会等于总体平均数50.5？很显然这和你的“手气”有关——不过大多数情况下是不会相等的。

那么问题来了：既然样本平均数不等于总体平均数（也就是说你报给教委主任的平均分和实际的平均分非常有可能是不一样的），要它还有用吗？有！因为样本平均数是总体平均数的无偏估计——也就是说只要你采用这种方法进行估算，估算的结果的期望值（你可以近似理解为很多次估算结果的平均数）既不会大于真实的平均数，也不会小于之。换句话说：你这种估算方法没有系统上的偏差，而产生误差的原因只有一个：随机因素（也就是你的手气好坏造成的）。

********************************************************************************************************************

再说一个例子：

比如我要对某个学校一个年级的上千个学生估计他们的平均水平（真实值，上帝才知道的数字），那么我决定抽样来计算。

我抽出一个10个人的样本，可以计算出一个均值。那么如果我下次重新抽样，抽到的10个人可能就不一样了，那么这个从样本里面计算出来的均值可能就变了，对不对？

因为这个均值是随着我抽样变化的，而我抽出哪10个人来计算这个数字是随机的，那么这个均值也是随机的。但是这个均值也会服从一个规律（一个分布），那就是如果我抽很多次样本，计算出很多个这样的均值，这么多均值们的平均数应该接近上帝才知道的真实平均水平。

如果你能理解“样本均值”其实也是一个随机变量，那么就可以理解为这个随机变量的期望是真实值，所以无偏（这是无偏的定义）；而它又是一个随机变量，只是估计而不精确地等于，所以是无偏估计量。

0 0