bootstrap sampling

来源:互联网 发布:slax linux使用教程 编辑:程序博客网 时间:2024/06/05 21:03
Bootstrap,即“拔靴法”(不知道翻得对不对),是用小样本来估计大样本的统计方法。举个栗子来说明好了,(我不会贴一个举栗子的图片的放心!)

你要统计你们小区里男女比例,可是你全部知道整个小区的人分别是男还是女很麻烦对吧。
于是你搬了个板凳坐在小区门口,花了十五分钟去数,准备了200张小纸条,有一个男的走过去,你就拿出一个小纸条写上“M”,有一个女的过去你就写一个“S”。
最后你回家以后把200张纸条放在茶几上,随机拿出其中的100张,看看几个M,几个S,你一定觉得这并不能代表整个小区对不对。
然后你把这些放回到200张纸条里,再随即抽100张,再做一次统计。
…………
如此反复10次或者更多次,大约就能代表你们整个小区的男女比例了。

你还是觉得不准?没办法,就是因为不能知道准确的样本,所以拿Bootstrap来做模拟而已


Bootstrapping从字面意思翻译是拔靴法,从其内容翻译又叫自助法,是一种再抽样统计方法。自助法的名称来源于英文短语“to pull
oneself up by one’s bootstrap”
,表示完成一件不能自然完成的事情。1977年美国Standford大学统计学教授Efron提出了一种新的增广样本的统计方法,就是Bootstrap方法,为解决小子样试验评估问题提供了很好的思路。
1、自助法的基本思路
如果不知道总体分布,那么,对总体分布的最好猜测便是由数据提供的分布。自助法的要点是:①假定观察值便是总体;②由这一假定的总体抽取样本,即再抽样。由原始数据经过再抽样所获得的与原始数据集含量相等的样本称为再抽样样本(resamples)自助样本(bootstrapsamples)。如果将由原始数据集计算所得的统计量称为观察统计量(observed
statistic)
的话,那么由再抽样样本计算所得的统计量称为自助统计量(bootstrap statistic)。自助法的关键所在是自助统计量与观察统计量间的关系,就如同观察统计量与真值间的关系,可表示为:
自助统计量::观察统计量<=>观察统计量::真值
其中,“::”表示二者间的关系,“<=>”表示等价于。也就是说,通过对自助统计量的研究,就可以了解有关观察统计量与真值的偏离情况。
其中的再抽样是有返还的抽样(sampling with replacement)方式。假定有n个观察值,自助样本可按如下步骤获得:
①将每一观察值写在纸签上;
②将所有纸签放在一个盒子中;
        ③混匀。抽取一个纸签,记下其上的观察值;
        ④放回盒子中,混匀,重新抽取;
        ⑤重复步骤③和④n次,便可得到一个自助样本。重复上述抽样过程B次,便可得到B个自助样本。(引用自刘文忠老师的一篇论文,感觉这样讲的比较容易懂了)。

0 0
原创粉丝点击