15. 机器学习基石
来源:互联网 发布:诸葛亮 司马懿 知乎 编辑:程序博客网 时间:2024/05/18 08:31
Summary - Power of Three
- Summary - Power of Three
- 1. Three Related Fields
- 1) Machine Learning V.S. Data Mining
- 2) Machine Learning V.S. Artificial Intelligence
- 3) Machine Learning V.S. Statistic
- 2. Three Theoretical Bounds
- 3. Three Linear Models
- 4. Three Key Tools
- 5. Three Learning Principles
- 6. Three Future Directions
- 1. Three Related Fields
- Summary
- Reference
总结整个课程,发现很多内容数量刚好都是三。
1. Three Related Fields
对比三个相关的领域:
- Data Mining
- Artificial Intelligence
- Statistic
机器学习是学习问题,而不是优化问题,也就是说,机器学习不仅要求数据在训练集上求得一个较小的误差,而且在测试集上也要表现的好(因为模型最终是要部署在实际的场景中,数据也是没有训练过的),即机器学习既要低误差,又要很好地泛化能力,以保证实际的误差与训练误差相差不大。
1) Machine Learning V.S. Data Mining
机器学习与数据挖掘都叫知识发现(KDD Knowledge Discovery in Dataset)。
- 两者是一致的:能够找出的有用信息就是我们要求得的近似目标函数的假设。
- 两者是互助的:ML需要大数据的支持才能保持能“学到东西”。
- 数据挖掘更关注于从大量的数据中的计算问题。
总的来时,两者密不可分。
2) Machine Learning V.S. Artificial Intelligence
AI是通过特定的方法让机器能做出Intelligent的行为,ML属于AI的一个分支,是AI实现的一种方式
3) Machine Learning V.S. Statistic
统计是通过对已知数据的处理,从而推断出未知的事件的属性
所以统计学是实现ML的一种方法,统计学里面有许多实用的工具可以用于证明ML。
2. Three Theoretical Bounds
三个理论基础是保证了机器在满足数据量足够大,且有合适的算法的情况下,可以实现机器学习。
三个理论基础如下:
- Hoeffding Inequity(单一假设确认时使用)
- Multi-Bin Hoffding Inequity(有限多个假设验证时使用)
- VC Bound(无限多个假设训练时使用)
3. Three Linear Models
前面我们讨论的Linear Model 有:
- Linear Classification (PLA, Pocket)
- Linear Regression
- Logistic Regression
具体如图一所示
4. Three Key Tools
3个重要的工具如:
- Feature Transform - 遇到太复杂的模型,可以映射到线性的空间去做处理 (Nonlinear Transform)
- Regularization - 通过加入惩罚项,来降低模型的复杂度 (Ridge Regression)
- Validation - 通过拿出部分数据来作为验证集,用于评估模型,方法(Leave-One-Out Cross Validation, V-Fold Cross Validation
具体如图二所示
5. Three Learning Principles
- Occam’s Razor - 越简单而有效的模型越好!
- Sampling Bias的坏处 - 我们在训练时要保证数据的来源,最好是相互独立的
- Data Snooping坏处 - 尽量先选择模型,然后在去查看数据,然后在训练的过程要保持怀疑的态度
6. Three Future Directions
未来机器学习的方向也分为三种:
- More Transform - 转换也能使得模型更加简单
- More Regularization - 尽可能降低模型的复杂度
- Less Label - 更少的Feature,那么模型将更好
具体如图三所示
Summary
- 总结整个课程
至此,Machine Learning Foundation (机器学习基石)的笔记总结完毕,有部分内容后续补充
Reference
[1] 机器学习基石(台湾大学-林轩田)\16\16 - 4 - Power of Three (08-49)
- 15. 机器学习基石
- 机器学习基石
- 机器学习基石笔记
- 机器学习基石
- 机器学习基石(2)
- 0. 机器学习基石
- 机器学习基石-Regularization
- 机器学习基石-Validation
- 分享 机器学习基石笔记
- 机器学习基石第二次作业
- 《机器学习基石》作业一
- 机器学习基石笔记--1
- 机器学习基石 2-* Summary
- 机器学习基石系列一
- 机器学习基石系列二
- 机器学习基石系列三
- 机器学习基石系列四
- 机器学习基石系列五
- jsonp
- 关于openmeetings的研究文章会在这里发布
- Oracle存储过程基本语法
- JAVA多线程的总结学习-基础
- 学习MINA
- 15. 机器学习基石
- Spring boot 入门程序详解
- struts2简介
- 获取iframe中的内容、查找获取指定元素(关于用c++调用WEBBROWSER控件,使用相关接口操作web页面元素的一些方法)
- RecyclerView增 删
- 移动端滚动穿透问题完美解决方案
- oracle的锁和锁的分类
- Oracle从创建用户到导入导出数据
- 51 nod 1022 石子归并 V2(dp决策单调性)