【数据挖掘】【笔记】阅读之机器学习竞赛进阶
来源:互联网 发布:左右音箱测试软件 编辑:程序博客网 时间:2024/05/16 12:08
教你如何在机器学习竞赛中更胜一筹(上)-博客-云栖社区-阿里云
https://yq.aliyun.com/articles/73755?spm=5176.100239.bloglist.40.wxgxxt
介绍一些建立机器学习模型的技巧
问答
解决ML问题的步骤
- 了解数据
- 检查变量类
- 可视化了解变量性质
- 评估指标
- 了解评估指标的变化趋势
- 确定交叉验证策略
- 初期阶段设置
- 获得可靠得分
- 超参调整
- 数据转换
- 缩放
- 异常值
- 空值
- 哑变量处理
- 特征选择
- 创建交互
- 选择算法
- 使用多种算法
- 保持预测结果
- 组合模型
- 数据转换
交叉验证
- 使用训练集验证集
- 重复评分
- 充分利用数据
缺失值处理
估算缺失值:
- 均值,中位数插值
- 在变量的正常范围之外标记。如-1, -9999
- 用一种可能性替换,例如与目标变量有关的事物
- 有时,空==0
- 尝试用已知值子集来预测缺失值
- 删除空值行
数据科学能力
将业务问题转化为机器学习问题 -> 继续转化为可解决的问题
kaggle与日常工作的区别
有一定比例重叠
kaggle之外
- 如何将业务问题转化为建模问题
- 如何监控模型的部署
- 如何解释困难的概念
比赛中需要的机器学习概念
- 数据探索
- 数据预处理
- 工具
- metrics和优化
- 交叉验证
- 模型调整
- 集成
机器学习关注点
算法核心 or 使用
- 每天都有新东西出现,有时很难跟踪
- 关注机器算法的正确使用
黑盒模型
机器学习算法和深度学习能够提高准确度,但很难解释(黑盒)
数据科学家,应该努力确保有一种方法来测试模型对数据的预测结果有多好,而不是了解为什么能得到这样的结果。
阅读全文
0 0
- 【数据挖掘】【笔记】阅读之机器学习竞赛进阶
- 『竞赛』机器学习、数据挖掘相关的竞赛
- 机器学习&数据挖掘笔记
- 机器学习&数据挖掘笔记
- 【数据挖掘】【笔记】阅读之数据挖掘比赛基本流程
- 机器学习&数据挖掘笔记_16(常见面试之机器学习算法思想简单梳理)
- 机器学习&数据挖掘笔记_16(常见面试之机器学习算法思想简单梳理)
- 机器学习&数据挖掘笔记_16(常见面试之机器学习算法思想简单梳理)
- 机器学习&数据挖掘笔记_16(常见面试之机器学习算法思想简单梳理)
- 机器学习&数据挖掘笔记(常见面试之机器学习算法思想简单梳理)
- 机器学习&数据挖掘笔记_16(常见面试之机器学习算法思想简单梳理)
- 机器学习&数据挖掘笔记_16(常见面试之机器学习算法思想简单梳理)
- 机器学习&数据挖掘笔记_16(常见面试之机器学习算法思想简单梳理)
- 机器学习&数据挖掘笔记(常见面试之机器学习算法思想简单梳理)
- 机器学习&数据挖掘笔记_16(常见面试之机器学习算法思想简单梳理)
- 机器学习&数据挖掘笔记_16(常见面试之机器学习算法思想简单梳理)
- 机器学习&数据挖掘笔记_16(常见面试之机器学习算法思想简单梳理)
- 机器学习&数据挖掘笔记_16(常见面试之机器学习算法思想简单梳理)
- [AHK]Dictionary Search
- Java输入满足条件的字符窜,并将其返回 密码设置成包含(A-Z)或空格的形式(空格不能作为密码的开头)
- 康威生命游戏 第一部分-基本功能实现(C++ & Windows SDK)
- POJ 2413 How many Fibs? 笔记
- 判断流程实例状态、历史流程实例查询、历史活动查询
- 【数据挖掘】【笔记】阅读之机器学习竞赛进阶
- Java序列化与反序列化
- Python数据分析基础(二)——NumPy基础
- 操作系统ucore lab8实验报告
- 流程变量
- 【数据挖掘】【笔记】阅读之数据挖掘比赛基本流程
- BJOI2014 大融合 并查集+线段树合并
- 树回归
- OkHttp框架的RetryAndFollowUpInterceptor请求重定向源码解析