机器学习：Bootstrap

来源：互联网发布：excel两列找出相同数据编辑：程序博客网时间：2024/05/21 04:24

Bootstrap

最近在看一篇论文 Training Deep Nets with Imbalanced and Unlabeled Data，主要是讲通过一种欠采样的方法解决DBN网络中数据不均衡的问题。其间该论文提出了一种解决方法，具体步骤如下

(i) compute an entropy-based measure on ultrasound images;

(ii) select a small, diverse initial training data set;

(iii) train a translational-DBN (tDBN) on this dataset;

(iv)bootstrap this initial dataset and retrain the tDBN on the

training set expanded with fixed mistakes.

对于前面3步很好理解，对于第4步，开始一直没能理解bootstrap在这里是怎么个意思。现整理如下。

各种词典翻译

总结一下主要译法有：引导，自举，引导程序，自助法，解靴带，自益

自助法，统计雪上是指由观察数据计算随机再采样反应的数值分布的方法

该paper中的理解

bootstrap法是指用原样本自身的数据抽样得出新的样本及统计量, 可以译成“自举”法吧，有的认为可译为：自抽样法。也就是通过既有样本生成更多有用的信息的做法。

“直观上就是：在已知数据的基础上, 通过用计算机来模拟N趋近于无穷大时候的情况, 把已知的DATA不断的重新SAMPLING, 从而在新的数据中得出原始数据的信息。再说的更简单更直观就是：就是给你100个数据, 但是你觉得100个数据没办法真实反映样本的全貌, 你就把这100个数据重新随机的SAMPLE1000次, 这样你就有了100*1000个数据点了. 你的样本量就会增大很多。”------抄来的。

以上取自于 http://bbs.pinggu.org/thread-302132-1-1.html

Bootstrap的思想，是生成一系列bootstrap伪样本，每个样本是初始数据有放回抽样。通过对伪样本的计算，获得统计量的分布。例如，要进行1000次bootstrap，求平均值的置信区间，可以对每个伪样本计算平均值。这样就获得了1000个平均值。对着1000个平均值的分位数进行计算，即可获得置信区间。已经证明，在初始样本足够大的情况下，bootstrap抽样能够无偏得接近总体的分布。（取自于 http://blog.sciencenet.cn/blog-255662-523462.html 里面有详细的例子，代码）

概率论与数理统计中

（本小节内容取自概率论与数理统计第四版浙江大学）

非参数bootstrap方法

设总体的分布F未知，但已经有一个容量为n的来自分布F的数据样本，自这一样本按放回抽样的方法抽取一个容量为n的样本，这种样本称为bootstrap样本或称为自助样本。相继的、独立的自原始样本中取很多个bootstrap样本，利用这些样本对总体F进行统计推断。这种方法称为非参数bootstrap方法，又称自助法。。此方法可以用于当人们对总体知之甚少的情况，它是近代统计中的一种用于数据处理的重要使用方法。

参数bootstrap方法

假设所研究的总体的分布函数F(x;p)的形式一直，但其中包含未知参数P（P可以是向量）。现在已知有一个来自F(x;p)的样本 X1,X2,...,Xn 利用这一样本求出P（在F(x;p)下）的最大似然估计P’。在F(x;p)中以P’代替P得到F(x;p’)，节奏在F(x;p’)中产生容量为n的样本，这种样本可以产生很多个，就可以利用这些样本对总体进行统计推断，其做法与非参数bootstrap方法一样，这种方法称为参数bootstrap法

0 0