Blending and Bagging

来源:互联网 发布:英雄联盟淘宝网 编辑:程序博客网 时间:2024/05/21 19:42

Blending and Bagging


目录(?)[+]

第七讲:Blending and Bagging


1、Motivation of Aggregation(融合的动机)




恰当的融合可以得到更好的表现


2、Uniform Blending(平均融合)

分类


回归


理论分析:
    所有误差g的平均  >=  平均的误差G
    但是最好的误差g是否比平均的误差G不知道。



演算法的平均表现 = 个别与共识的差距(variance) + 共识的表现(bias)
平均的过程:消除个别与共识的差距,从而得到更稳定的表现



3、Linear Blending(线性融合)

线性融合  = 线性模型 + g当作转换 +条件(a>=0)


条件(a>=0)这一项可以去除,当a<=0时表示这一项起反效果。


Linear Blending在Selection时候:
应该通过 Eval而不是Ein;
相应的在Dval上验证的模型应该是g-而不是g(若是选择g,因为这些model在Ddata上训练,Ddata=Dtrain+Dval,所以相当于见过Dval,可能会过拟合)





linear Blending 和 any Blending OR Stacking(non-linear):
通过在Dtrain上训练一批模型g-,然后在Dval上验证找出最好的alpha,但是最后返回的模型是alpha和g。


例举了台大在2011 KDDCup通过Blending拿到冠军的故事,说明Blending确实很有效如果不惜计算量的话。


4、Bagging(Bootstrap Aggregation)


blending:在得到g后融合。
learning:一边学到g一边融合起来
g是如何得到的呢?
模型的不同、参数的不同、算法随机性的不同、数据随机性的不同



很多g的共识比单一g好,但是手上没有大量的数据产生不同的g。
boostrapping的思想:从手上有限的数据模拟出不同的数据。



boostrapping:从N个数据中有放回随机采样N(或少于N)次,每次采样1个样本。意味着同一个数据可能被采样多次。
boostrap aggregation(BAGging):建立在base算法上的meta算法。



例子:由25条Bagging Pocket产生的线融合得到的一个效果还可以的分类线。
如果base算法对数据随机性敏感的话,Bagging 会得到不错的效果。


练习:boostrap过程有NN情形产生,里面有N!种会是原来数据的排列组合

0 0
原创粉丝点击