15. 机器学习基石

来源:互联网 发布:诸葛亮 司马懿 知乎 编辑:程序博客网 时间:2024/05/18 08:31

Summary - Power of Three

  • Summary - Power of Three
    • 1. Three Related Fields
      • 1) Machine Learning V.S. Data Mining
      • 2) Machine Learning V.S. Artificial Intelligence
      • 3) Machine Learning V.S. Statistic
    • 2. Three Theoretical Bounds
    • 3. Three Linear Models
    • 4. Three Key Tools
    • 5. Three Learning Principles
    • 6. Three Future Directions
  • Summary
  • Reference

总结整个课程,发现很多内容数量刚好都是三。

对比三个相关的领域:
- Data Mining
- Artificial Intelligence
- Statistic

机器学习是学习问题,而不是优化问题,也就是说,机器学习不仅要求数据在训练集上求得一个较小的误差,而且在测试集上也要表现的好(因为模型最终是要部署在实际的场景中,数据也是没有训练过的),即机器学习既要低误差,又要很好地泛化能力,以保证实际的误差与训练误差相差不大。

1) Machine Learning V.S. Data Mining

机器学习与数据挖掘都叫知识发现(KDD Knowledge Discovery in Dataset)。
- 两者是一致的:能够找出的有用信息就是我们要求得的近似目标函数的假设。
- 两者是互助的:ML需要大数据的支持才能保持能“学到东西”。
- 数据挖掘更关注于从大量的数据中的计算问题。
总的来时,两者密不可分。

2) Machine Learning V.S. Artificial Intelligence

AI是通过特定的方法让机器能做出Intelligent的行为,ML属于AI的一个分支,是AI实现的一种方式

3) Machine Learning V.S. Statistic

统计是通过对已知数据的处理,从而推断出未知的事件的属性
所以统计学是实现ML的一种方法,统计学里面有许多实用的工具可以用于证明ML。



2. Three Theoretical Bounds

三个理论基础是保证了机器在满足数据量足够大,且有合适的算法的情况下,可以实现机器学习。
三个理论基础如下:
- Hoeffding Inequity(单一假设确认时使用)
- Multi-Bin Hoffding Inequity(有限多个假设验证时使用)
- VC Bound(无限多个假设训练时使用)



3. Three Linear Models

前面我们讨论的Linear Model 有:
- Linear Classification (PLA, Pocket)
- Linear Regression
- Logistic Regression

具体如图一所示

Three Linear Models

图一 Three Linear Models [1]



4. Three Key Tools

3个重要的工具如:
- Feature Transform - 遇到太复杂的模型,可以映射到线性的空间去做处理 (Nonlinear Transform)
- Regularization - 通过加入惩罚项,来降低模型的复杂度 (Ridge Regression)
- Validation - 通过拿出部分数据来作为验证集,用于评估模型,方法(Leave-One-Out Cross Validation, V-Fold Cross Validation

具体如图二所示

Three Key Tools

图二 Three Key Tools [1]



5. Three Learning Principles

  • Occam’s Razor - 越简单而有效的模型越好!
  • Sampling Bias的坏处 - 我们在训练时要保证数据的来源,最好是相互独立的
  • Data Snooping坏处 - 尽量先选择模型,然后在去查看数据,然后在训练的过程要保持怀疑的态度


6. Three Future Directions

未来机器学习的方向也分为三种:
- More Transform - 转换也能使得模型更加简单
- More Regularization - 尽可能降低模型的复杂度
- Less Label - 更少的Feature,那么模型将更好

具体如图三所示

Three Key Tools

图三 Three Future Directions [1]



Summary

  1. 总结整个课程

至此,Machine Learning Foundation (机器学习基石)的笔记总结完毕,有部分内容后续补充

Reference

[1] 机器学习基石(台湾大学-林轩田)\16\16 - 4 - Power of Three (08-49)