[转]KAGGLE ENSEMBLING GUIDE

来源:互联网 发布:a股进msci的意义 知乎 编辑:程序博客网 时间:2024/05/16 09:43

原文地址:http://mlwave.com/kaggle-ensembling-guide/

Voting

  • 投票机制,少数服从多数,多个弱分类器,从概率上可以计算组合起来正确可能性更高
  • 各个分类器相关性太高的话,最终结果不好。选择相关性不太强的分类器
  • weighing,加权重。比如一种5个classifier,最强的一个算三票,其余各个算一票。这样子,The only way for the inferior models to overrule the best model (expert) is for them to collectively (and confidently) agree on an alternative.

Averaging

  • 过拟合的问题
  • Rank averaging,先转换成rank,再average。因为有可能各个classifier的结果量级不一致
  • stream类型的数据,利用历史的rank来做Historical ranks

Stacked Generalization & Blending

  • 我去,这个看起来最麻烦,大体意思就是,先用一层来产出一个中间结果,再用这个中间结果套一层方法,产出最终结果
  • stack vs blending,感觉就是是不是要k-fold。blending是固定选一个集合做test
  • 结合代码来看比较清晰
    • https://github.com/emanuele/kaggle_pbr/blob/master/blend.py
    • 第一层时一共有5个不同classifier
    • 训练集是X,对应的标签是y,预测集合是X_Submission
    • 将原始的X、y,进行k-fold划分,分成小train和小test(Xtrain,Xtest,Ytrain,Ytest)
    • 遍历5个classifier i
      • 遍历k-fold j
        • 获得当前拆分的Xtrain和Ytrain,在当前的classifier中,训练得到一个模型
        • 用这个模型去预测这部分的Xtest(遍历完k-fold后,就得到完整的 i 的 X-new-train)
        • 用模型去跑整个预测集X_Submission, blend_test_j
      • 将上面的预测 blend_test_j 求平均,得到X_Submission在Classifier i 的作用下的预测结果
  • i 的循环结束后,获得两个新数据集
    1. X-new-train 行数等于X的样本个数,列数为训练器i个数,每一个值为这个训练器i的预测结果
    2. X-new-test 行数等于X_Submission的样本个数,列数为训练器i个数,每一个值为这个训练器i的预测结果
  • 然后,用X-new-train这个合成的结果作为新的训练集train,用y作为标签,套一层LR,算得模型
  • 再用X-new-test作为预测集合,预测结果。
  • 擦,感觉还是讲复杂了Orz。其实就是,n个训练器,在train集得到的结果组成新的train集,在predict集得到的结果组成新的predict集。标签用一样的。就okay了。

后面的没怎么看懂Orz

0 0
原创粉丝点击