[转]KAGGLE ENSEMBLING GUIDE

来源：互联网发布：a股进msci的意义知乎编辑：程序博客网时间：2024/05/16 09:43

原文地址：http://mlwave.com/kaggle-ensembling-guide/

Voting

投票机制，少数服从多数，多个弱分类器，从概率上可以计算组合起来正确可能性更高
各个分类器相关性太高的话，最终结果不好。选择相关性不太强的分类器
weighing，加权重。比如一种5个classifier，最强的一个算三票，其余各个算一票。这样子，The only way for the inferior models to overrule the best model (expert) is for them to collectively (and confidently) agree on an alternative.

Averaging

过拟合的问题
Rank averaging，先转换成rank，再average。因为有可能各个classifier的结果量级不一致
stream类型的数据，利用历史的rank来做Historical ranks

Stacked Generalization & Blending

我去，这个看起来最麻烦，大体意思就是，先用一层来产出一个中间结果，再用这个中间结果套一层方法，产出最终结果
stack vs blending，感觉就是是不是要k-fold。blending是固定选一个集合做test
结合代码来看比较清晰
- https://github.com/emanuele/kaggle_pbr/blob/master/blend.py
- 第一层时一共有5个不同classifier
- 训练集是X，对应的标签是y，预测集合是X_Submission
- 将原始的X、y，进行k-fold划分，分成小train和小test（Xtrain，Xtest，Ytrain，Ytest）
- 遍历5个classifier i
  - 遍历k-fold j
    - 获得当前拆分的Xtrain和Ytrain，在当前的classifier中，训练得到一个模型
    - 用这个模型去预测这部分的Xtest（遍历完k-fold后，就得到完整的 i 的 X-new-train）
    - 用模型去跑整个预测集X_Submission， blend_test_j
  - 将上面的预测 blend_test_j 求平均，得到X_Submission在Classifier i 的作用下的预测结果
i 的循环结束后，获得两个新数据集
1. X-new-train 行数等于X的样本个数，列数为训练器i个数，每一个值为这个训练器i的预测结果
2. X-new-test 行数等于X_Submission的样本个数，列数为训练器i个数，每一个值为这个训练器i的预测结果
然后，用X-new-train这个合成的结果作为新的训练集train，用y作为标签，套一层LR，算得模型
再用X-new-test作为预测集合，预测结果。
擦，感觉还是讲复杂了Orz。其实就是，n个训练器，在train集得到的结果组成新的train集，在predict集得到的结果组成新的predict集。标签用一样的。就okay了。

后面的没怎么看懂Orz

0 0