机器学习基础(十六)—— bootstrap

来源:互联网 发布:mysql 误删 编辑:程序博客网 时间:2024/05/10 15:55

bootstrap:抽出来、记录下来、放回去

bootstrapping:一个统计工具,对同一份数据集,进行不同的重采样(re-sample)以模拟不同的数据集出来,避免了 cross-validation 中数据量的减少。

在集成学习(ensemble learning)中,我们所要集成的对象是不同的分类器,分类器间的差异性(diversity)是集成学习成功的关键要素,差异性主要有以下来源:

  • (1)模型差异:g1H1,g2H2,, gTHT

  • (2)参数的差异:对 GD 而言 η=0.001,0.01,0.1,,10

  • (3)算法的随机性(randomness)

  • (4)数据随机性(randomness)

而 bootstrapping 就是一种用来产生数据随机性的统计工具。

bootstrap 的采样过程属于有放回采样(uniformly with replacement)

bootstrap sample D~t:re-sample N samples from D uniformly with replacement.

也不一定要求,新的数据集要保持和原始数据集一样的规模 N,可以是任意的 N

Bootstrap AGgregation 就被称为 BAGging 算法。

0 0
原创粉丝点击