BootStrap思想

来源：互联网发布：lol数据分析编辑：程序博客网时间：2024/06/05 09:55

一句话，讲白了就是对已有的观测样本反复的有放回抽样，通过多次计算这些放回抽样的结果，获取统计量的分布。

以下是收集的一些例子:

1979年美国Stanford大学统计系教授Bradley Efron[1]在总结、归纳前人研究成果的基础上提出一种新的非参数统计方法——Bootstrap方法，1980年魏宗舒教授向国内做了首次介绍并将Bootstrap译作“自助法”。Bootstrap方法是一类非参数Monte Carlo方法,其实质是对观测信息进行再抽样，进而对总体的分布特性进行统计推断。 Bootstrap方法因为充分利用了给定的观测信息，不需要模型其他的假设和增加新的观测，并且具有稳健性和效率高的特点，越来越受到欢迎。

基本思想：重抽样

我们有观测数据集

D : {(x i, y i), 1 \leq i \leq N}

，然后对这N个样本，进行有放回的重抽样。每轮我们还是抽N个，然后一共抽B轮（比如几百轮，话说前几天weibo上有人问“如果给你一万个人，你要做什么”，放在这里我就要他们不停的抽小球抽小球抽小球，哈哈！）。这样就得到了新的观测样本

D b : {(x b i, y b i), 1 \leq i \leq N}, 1 \leq b \leq B

Bootstrap的思想，是生成一系列bootstrap伪样本，每个样本是初始数据有放回抽样。通过对伪样本的计算，获得统计量的分布。例如，要进行1000次bootstrap，求平均值的置信区间，可以对每个伪样本计算平均值。这样就获得了1000个平均值。对着1000个平均值的分位数进行计算，即可获得置信区间。已经证明，在初始样本足够大的情况下，bootstrap抽样能够无偏得接近总体的分布。

0 0