[转]KAGGLE ENSEMBLING GUIDE
来源:互联网 发布:a股进msci的意义 知乎 编辑:程序博客网 时间:2024/05/16 09:43
原文地址:http://mlwave.com/kaggle-ensembling-guide/
Voting
- 投票机制,少数服从多数,多个弱分类器,从概率上可以计算组合起来正确可能性更高
- 各个分类器相关性太高的话,最终结果不好。选择相关性不太强的分类器
- weighing,加权重。比如一种5个classifier,最强的一个算三票,其余各个算一票。这样子,The only way for the inferior models to overrule the best model (expert) is for them to collectively (and confidently) agree on an alternative.
Averaging
- 过拟合的问题
- Rank averaging,先转换成rank,再average。因为有可能各个classifier的结果量级不一致
- stream类型的数据,利用历史的rank来做Historical ranks
Stacked Generalization & Blending
- 我去,这个看起来最麻烦,大体意思就是,先用一层来产出一个中间结果,再用这个中间结果套一层方法,产出最终结果
- stack vs blending,感觉就是是不是要k-fold。blending是固定选一个集合做test
- 结合代码来看比较清晰
- https://github.com/emanuele/kaggle_pbr/blob/master/blend.py
- 第一层时一共有5个不同classifier
- 训练集是X,对应的标签是y,预测集合是X_Submission
- 将原始的X、y,进行k-fold划分,分成小train和小test(Xtrain,Xtest,Ytrain,Ytest)
- 遍历5个classifier i
- 遍历k-fold j
- 获得当前拆分的Xtrain和Ytrain,在当前的classifier中,训练得到一个模型
- 用这个模型去预测这部分的Xtest(遍历完k-fold后,就得到完整的 i 的 X-new-train)
- 用模型去跑整个预测集X_Submission, blend_test_j
- 将上面的预测 blend_test_j 求平均,得到X_Submission在Classifier i 的作用下的预测结果
- 遍历k-fold j
- i 的循环结束后,获得两个新数据集
- X-new-train 行数等于X的样本个数,列数为训练器i个数,每一个值为这个训练器i的预测结果
- X-new-test 行数等于X_Submission的样本个数,列数为训练器i个数,每一个值为这个训练器i的预测结果
- 然后,用X-new-train这个合成的结果作为新的训练集train,用y作为标签,套一层LR,算得模型
- 再用X-new-test作为预测集合,预测结果。
- 擦,感觉还是讲复杂了Orz。其实就是,n个训练器,在train集得到的结果组成新的train集,在predict集得到的结果组成新的predict集。标签用一样的。就okay了。
后面的没怎么看懂Orz
0 0
- [转]KAGGLE ENSEMBLING GUIDE
- KAGGLE ENSEMBLING GUIDE
- KAGGLE ENSEMBLING GUIDE
- KAGGLE ENSEMBLING GUIDE(注脚)
- 模型融合-Kaggle Ensembling Guide
- KAGGLE ENSEMBLING GUIDE---模型融合
- kaggle ensembling guide(Kaggle中常用融合技术 )
- KAGGLE比赛中集成方法使用教程(KAGGLE ENSEMBLING GUIDE)
- Kaggle-Ensemble-Guide
- 【数据挖掘】【笔记】模型集成之ensembling guide
- ensemble 总结 Kaggle-Ensemble-Guide
- Model ensembling
- Kaggle
- KAGGLE
- kaggle
- Ensembling&Stacking models(模型融合)
- OSPF Guide --<转>
- 转-virsh Guide
- 计算字符串的相似度
- mysql-bin日志文件过大导致磁盘空间不足问题解决方法
- java 记录一下socket的server与clien
- 灯液未泱-mysql初学安装(一)
- java.sql.SQLException: Connection is closed
- [转]KAGGLE ENSEMBLING GUIDE
- fcitx日语输入法添加
- linux和win7下的软链接和硬链接
- java 数字处理与位运算
- 第12章-图形用户接口
- Spring 系列: Spring 框架简介
- 黑马程序员——java基础之语法(二)
- Visual Studio 2012 中的一些小技巧
- 对java中random的思考