Kaggle 流程

来源:互联网 发布:url encode utf8 java 编辑:程序博客网 时间:2024/06/15 10:50

1.Data Exploration

1.1. Visualization

  • 对 Numerical Variable,可以用 Box Plot 来直观地查看它的分布
  • 对于坐标类数据,可以用Scatter Plot来查看他们的分布趋势和是否有离群点的存在
  • 对于分类问题,将数据根据Label的不同着不同的色,这对于特征的构造很有帮助
2.Data Preprocessing
  • 处理Missing Data
  • 处理Outlier
  • 必要时转换某些Categorical Variable的表示方式
3.Feature Engineering
3.1 Feature Selection
总的来说,我们应该生成尽量多的 Feature,相信 Model 能够挑出最有用的 Feature。但有时先做一遍 Feature Selection 也能带来一些好处:
  • Feature 越少,训练越快
  • 有些Feature之间可能存在线性的关系,影响模型的性能
  • 通过挑选出最重要的 Feature,可以将它们之间进行各种运算和操作的结果作为新的 Feature,可能带来意外的提高
Feature Selection 最实用的方法也就是看 Random Forest 训练完以后得到的 Feature Importance 了。

4 Model Selection

4.1 Model Training

4.2 Cross Validation

5. Ensemble Generation














原创粉丝点击