机器学习:Bootstrap
来源:互联网 发布:excel两列找出相同数据 编辑:程序博客网 时间:2024/05/21 04:24
Bootstrap
最近在看一篇论文 Training Deep Nets with Imbalanced and Unlabeled Data,主要是讲通过一种欠采样的方法解决DBN网络中数据不均衡的问题。其间该论文提出了一种解决方法,具体步骤如下
(i) compute an entropy-based measure on ultrasound images;
(ii) select a small, diverse initial training data set;
(iii) train a translational-DBN (tDBN) on this dataset;
(iv)bootstrap this initial dataset and retrain the tDBN on the
training set expanded with fixed mistakes.
对于前面3步很好理解,对于第4步,开始一直没能理解bootstrap在这里是怎么个意思。现整理如下。
各种词典翻译
总结一下主要译法有:引导,自举,引导程序,自助法,解靴带,自益
自助法,统计雪上是指由观察数据计算随机再采样反应的数值分布的方法
该paper中的理解
bootstrap法是指用原样本自身的数据抽样得出新的样本及统计量, 可以译成“自举”法吧,有的认为可译为:自抽样法。也就是通过既有样本生成更多有用的信息的做法。
“直观上就是:在已知数据的基础上, 通过用计算机来模拟N趋近于无穷大时候的情况, 把已知的DATA不断的重新SAMPLING, 从而在新的数据中得出原始数据的信息。再说的更简单更直观就是: 就是给你100个数据, 但是你觉得100个数据没办法真实反映样本的全貌, 你就把这100个数据重新随机的SAMPLE1000次, 这样你就有了100*1000个数据点了. 你的样本量就会增大很多。”------抄来的。
以上取自于 http://bbs.pinggu.org/thread-302132-1-1.html
Bootstrap的思想,是生成一系列bootstrap伪样本,每个样本是初始数据有放回抽样。通过对伪样本的计算,获得统计量的分布。例如,要进行1000次bootstrap,求平均值的置信区间 ,可以对每个伪样本计算平均值。这样就获得了1000个平均值。对着1000个平均值的分位数进行计算, 即可获得置信区间。已经证明,在初始样本足够大的情况下,bootstrap抽样能够无偏得接近总体的分布。 (取自于 http://blog.sciencenet.cn/blog-255662-523462.html 里面有详细的例子,代码)
概率论与数理统计中
(本小节内容取自 概率论与数理统计 第四版 浙江大学 )
非参数bootstrap方法
设总体的分布F未知,但已经有一个容量为n的来自分布F的数据样本,自这一样本按放回抽样的方法抽取一个容量为n的样本,这种样本称为bootstrap样本或称为自助样本。相继的、独立的自原始样本中取很多个bootstrap样本,利用这些样本对总体F进行统计推断。这种方法称为非参数bootstrap方法,又称自助法。。此方法可以用于当人们对总体知之甚少的情况,它是近代统计中的一种用于数据处理的重要使用方法。
参数bootstrap方法
假设所研究的总体的分布函数F(x;p)的形式一直,但其中包含未知参数P(P可以是向量)。现在已知有一个来自F(x;p)的样本 X1,X2,...,Xn 利用这一样本求出P(在F(x;p)下)的最大似然估计P’。在F(x;p)中以P’代替P得到F(x;p’),节奏在F(x;p’)中产生容量为n的样本 ,这种样本可以产生很多个,就可以利用这些样本对总体进行统计推断,其做法与非参数bootstrap方法一样,这种方法称为参数bootstrap法
- 机器学习:Bootstrap
- 【机器学习】Bootstrap--Bagging--Boosting--AdaBoost
- 机器学习校招笔记1:bootstrap
- 看懂论文的机器学习基本知识(四)--bootstrap
- 机器学习技法总结(四)(aggregation,vote,bootstrap...)
- 机器学习基础(十六)—— bootstrap
- 看懂论文的机器学习基本知识(四)--bootstrap
- Bootstrap学习--初识Bootstrap
- Bootstrap学习--初识Bootstrap
- bootstrap学习
- Bootstrap 学习
- bootstrap学习
- bootstrap学习
- Bootstrap 学习
- bootstrap学习
- bootstrap学习
- Bootstrap学习
- Bootstrap 学习
- 面试总结6--C++基础问题Part2
- view的getChildMeasureSpace方法总结
- C# 反射技术简介
- 异常java.lang.Thread.dumpStack(Unknown Source)
- 手把手入门神经网络系列(2)_74行代码实现手写数字识别
- 机器学习:Bootstrap
- SQLServer最大内存设置的参考表
- PhotoView点击事件
- 杭电ACM1021
- 关于操作系统中pv操作的实现
- zhphp framework (二十八) token 加密与解密
- 导数据有感
- Web容器
- php 生成 ueediter 网页编辑器