Kaggle 流程
来源:互联网 发布:url encode utf8 java 编辑:程序博客网 时间:2024/06/15 10:50
1.Data Exploration
1.1. Visualization
- 对 Numerical Variable,可以用 Box Plot 来直观地查看它的分布
- 对于坐标类数据,可以用Scatter Plot来查看他们的分布趋势和是否有离群点的存在
- 对于分类问题,将数据根据Label的不同着不同的色,这对于特征的构造很有帮助
2.Data Preprocessing
- 处理Missing Data
- 处理Outlier
- 必要时转换某些Categorical Variable的表示方式
3.Feature Engineering
3.1 Feature Selection
总的来说,我们应该生成尽量多的 Feature,相信 Model 能够挑出最有用的 Feature。但有时先做一遍 Feature Selection 也能带来一些好处:
- Feature 越少,训练越快
- 有些Feature之间可能存在线性的关系,影响模型的性能
- 通过挑选出最重要的 Feature,可以将它们之间进行各种运算和操作的结果作为新的 Feature,可能带来意外的提高
Feature Selection 最实用的方法也就是看 Random Forest 训练完以后得到的 Feature Importance 了。
4 Model Selection
4.1 Model Training
4.2 Cross Validation
5. Ensemble Generation
阅读全文
0 0
- Kaggle 流程
- Kaggle(1):数据挖掘的基本流程
- Kaggle Animal Shelter Outcome整个流程
- kaggle上打比赛的流程
- kaggle titanic 机器学习流程 top30%
- Kaggle
- KAGGLE
- kaggle
- Kaggle课程 | lecture 1 机器学习算法、工具与流程概述
- Kaggle入门
- about Kaggle
- 【kaggle】Titanic
- Kaggle入门
- Kaggle平台
- kaggle 入门
- kaggle实战
- Kaggle入门
- Kaggle: Titanic
- jquery实现点击一个tab页,填充整个表单(一)。
- LoadRunner使用之:深入理解Resource和Non-Recource
- Spring IOC 学习
- [Linux]gdb调试多进程多线程例程
- c++智能指针详解
- Kaggle 流程
- C++结构体类型解惑
- input之key(一)
- 单例模式
- 前端知识
- HDOJ 4745 (区间DP)
- ubuntu16.04安装teamviewer和飞鸽传书
- STL中pair的用法
- UNP(卷2:进程间通信)—— 第一章:简介