周志华《机器学习》笔记:第1章 绪论

来源:互联网 发布:无限极植雅牙膏知乎 编辑:程序博客网 时间:2024/06/08 03:32

本章概括
简要介绍机器学习。

  • 第1章 绪论
    • 基本术语
    • 假设空间
    • 归纳偏好
    • 发展历程与应用现状

第1章 绪论

所谓机器学习的研究内容就是从数据中产生模型算法,也即learning algorithm

基本术语

  1. 分类classification和回归regression
    • 简单说,如果预测是离散值,就是分类
    • 若预测是连续值,就是回归
  2. 泛化generalization
    • 所谓泛化,就是学习的模型适用于新样本的能力

假设空间

一般来说,机器学习是从样例中学习,也就是归纳的过程,特殊到一般,属于归纳学习inductive learning。

而一般科学研究有两大基本手段:归纳induction和推演deduction。两者过程可认为是相反的:
1. 归纳:就是从样例中学习,从特殊到一般,体现的是泛化过程
2. 推演:就是从公理推出定理,从一般到特殊,体现的是特化specialization过程1.

归纳偏好

所谓归纳偏好induction bias,就是机器学习算法在学习过程中对某种类型假设的偏好。

一个有效的机器学习算法必然是有归纳偏好的,否则就无法产生确定的学习结果。比如预测一个东西的分类,时而分类为A,时而分类为B,这样的学习结果显然没有意义。

而算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能。

这就是bias的含义,实际上根据NFL定理(No Free Lunch)可知:

所有「问题」出现的机会相同、或所有问题同等重要的前提下,好的学习算法和坏的学习算法,它们的期望性能是相同的。也就是总误差与学习算法无关。(数学证明可见书P8-9)

但我们使用机器学习往往是关注于一个具体任务,自然就可以有好与坏的学习算法。抛开具体问题空谈学习算法是毫无意义的。

发展历程与应用现状

美国国家科学基金会强调要深入研究和整合大数据时代的三个关键技术:机器学习、云计算和众包crowdsourcing。它们分别负责提供数据分析能力、数据处理能力和数据标记能力。


  1. 杨振宁经典演讲:《易经》对中华文化的影响 ↩
0 0
原创粉丝点击