【学习指导】Kaggle入门
来源:互联网 发布:网络协同是什么意思 编辑:程序博客网 时间:2024/05/21 16:56
Kaggle的比赛结果是以排名占比划分,共分为Prize Winner,10%或是25%这三档,新手可以以10%为自己的目标。在此平台上开发者可以用Python或者R进行编程。该比赛会有一些基本概念和时间限制(详情见比赛官网)。
比赛流程:
- Data Exploration & Visualization
首先需要对数据进行初步的简单的处理来为今后的分析做铺垫,也可以采用绘图的方法来寻找灵感。 - Statistical Tests
对于预测结果的不同是否会收到噪声的影响,需要在测试标准中设立一个阀值来对噪声造成的结果波动进行过滤。 - Data Preprocessing
数据处理时需要对缺失数据、异常数据和某些离散类别数据甚至是一些小数点后的精度损失进行处理,尤其需要一定的pandas和iPython Notebook技巧 - Dummy Variables
当需要处理类别变量时,可以对其可能的取值进行虚拟数值化(当取值种类数较小时)。 - Feature Engineering
当一个变量从直觉上来说对所要完成的目标有帮助,就可以将其作为 Feature(特征)。 - Feature Selection
最实用的筛选方法是看 Random Forest 训练完以后得到的 Feature Importance,通过挑选出最重要的 Feature,可以将它们之间进行各种运算和操作的结果作为新的 Feature,可能带来意外的提高。 - Feature Encoding
如果类别变量种类过多时,需要重新设计变量系统来合理地表示这一 Feature。 - Model Selection
准备好Feature后,需要将数据输入训练模型进行训练,在Kaggle的比赛中,Xgboost是一个重要的工具。 - Model Training
核心是调整参数,基本准则是先粗略测试(大步迭代)后精细测试(小步迭代),并时刻观察精度达标时的收敛代数以防止过拟合,最好将该模型的随机数种子记录下来以重现模型。
0 0
- 【学习指导】Kaggle入门
- Javascript 入门学习指导
- 机器学习入门指导
- Kaggle入门
- Kaggle入门
- kaggle 入门
- Kaggle入门
- kaggle入门
- Kaggle入门
- kaggle 入门
- kaggle 入门
- hive入门学习线路指导
- hive入门学习线路指导
- GO语言学习入门指导
- hive入门学习线路指导
- hive入门学习线路指导
- Kaggle 首战拿银总结 | 入门指导 (长文、干货)
- Kaggle入门系列:(二)机器学习环境搭建
- javascript Style属性的使用
- jboss相关命令
- win10 开始菜单图标点击右键没反应终极解决办法--非修改注册表
- Linux学习之第六章
- 设计模式总体说明
- 【学习指导】Kaggle入门
- Windows 10 系统上安装Mac OS X 10.11
- 【练习】旋转数组
- Server性能提升趣谈
- RobotFramework环境配置十七:数据驱动(Read Excel File)
- 8皇后问题
- javaScript使用Lodop实现网页表格套打功能
- Android JNI作用及其详解
- busybox内置tftpd服务器配置