BootStrap思想

来源:互联网 发布:lol数据分析 编辑:程序博客网 时间:2024/06/05 09:55

一句话,讲白了就是对已有的观测样本反复的有放回抽样,通过多次计算这些放回抽样的结果,获取统计量的分布。


以下是收集的一些例子:

1979年美国Stanford大学统计系教授Bradley Efron[1]在总结、归纳前人研究成果的基础上提出一种新的非参数统计方法——Bootstrap方法,1980年魏宗舒教授向国内做了首次介绍并将Bootstrap译作“自助法”。Bootstrap方法是一类非参数Monte Carlo方法,其实质是对观测信息进行再抽样,进而对总体的分布特性进行统计推断。 Bootstrap方法因为充分利用了给定的观测信息,不需要模型其他的假设和增加新的观测,并且具有稳健性和效率高的特点,越来越受到欢迎。


基本思想:重抽样

我们有观测数据集

D:{(xi,yi),1iN}
,然后对这N个样本,进行有放回的重抽样。每轮我们还是抽N个,然后一共抽B轮(比如几百轮,话说前几天weibo上有人问“如果给你一万个人,你要做什么”,放在这里我就要他们不停的抽小球抽小球抽小球,哈哈!)。这样就得到了新的观测样本
Db:{(xbi,ybi),1iN},1bB


Bootstrap的思想,是生成一系列bootstrap伪样本,每个样本是初始数据有放回抽样。通过对伪样本的计算,获得统计量的分布。例如,要进行1000次bootstrap,求平均值的置信区间,可以对每个伪样本计算平均值。这样就获得了1000个平均值。对着1000个平均值的分位数进行计算, 即可获得置信区间。已经证明,在初始样本足够大的情况下,bootstrap抽样能够无偏得接近总体的分布。



0 0
原创粉丝点击