周志华《机器学习》第 1 章绪论

来源：互联网发布：问卷录入软件编辑：程序博客网时间：2024/06/01 13:19

本文是周志华《机器学习》系列文章之一，主要介绍机器学习的基本概念及类别，并简要介绍机器学习的发展历程和应用现状。

第 1 章绪论

1.1 引言

机器学习所研究的主要内容是关于在计算机上从数据中产生“模型”（model）的算法，即“学习算法”（learning algorithm）。可以说机器学习是研究关于“学习算法”的学问。

1.2 基本术语

数据集相关概念

一组记录的集合称为一个“数据集”（data set），其中每条记录是关于一个事件或对象的描述，称为一个“示例”（instance）或“样本”（sample）。反映事件或对象在某方面的表现或性质的事项，称为“属性”（attribute）或“特征”（feature），属性上的取值称为“属性值”（attribute value），属性张成的空间称为“属性空间”（attribute space）、“样本空间”（sample space）或“输入空间”。

由于空间中的每个点对应一个坐标向量，因此也把一个示例称为一个“特征向量”（feature vector）。每个示例由 d 个属性描述，则 d 称为样本的“维数”（dimensionality）。

关于示例结果的信息称为“标记”（label），拥有了标记信息的示例称为“样例”（example），所有标记的集合称为“标记空间”（label space）或“输出空间”。

训练集和测试集

从数据中学得模型的过程称为“学习”（learning）或“训练”（training）。训练过程中使用的数据称为“训练数据”（training data），其中每个样本称为一个“训练样本”（training sample），训练样本组成的集合称为“训练集”（training set）。

学得模型后，使用其进行预测的过程称为“测试”（testing），被预测的样本称为“测试样本”（testing sample）。

分类回归概念

若预测的是离散值，此类学习任务称为“分类”（classification），如“好瓜”，“坏瓜”；若预测的是连续值，此类学习任务称为“回归”（regression），如西瓜成熟度为0.95,0.37等。

对只涉及两个类别的“二分类”（binary classification）任务，通常称其中一个类为“正类”（positive class），另一个为“反类”（negative class）；涉及多个类别时，则称为“多分类”（multi-class classification）任务。

可以对训练集做“聚类”（clustering），比如将训练集中的西瓜分成若干组，每组称为一个“簇”（cluster）；这些自动形成的簇可能对应一些潜在的概念划分，例如“浅色瓜”“深色瓜”，甚至“本地瓜”“外地瓜”。这样的学习过程有助于我们了解数据的内在规律，能为更深入地分析数据建立基础。需要说明的是，在聚类学习中，“浅色瓜”“本地瓜”这样的概念我们事先是不知道的，而且学习过程中使用的训练样本通常不拥有标记信息。

监督学习和无监督学习

根据训练数据是否拥有标记信息，学习任务可大致分为两大类：“监督学习”（supervised learning）和“无监督学习”（unsupervised learning），分类和回归是前者的代表，而聚类则是后者的代表。

学得模型适用于新样本的能力，称为“泛化”（generalization）能力。

1.3 假设空间

归纳（induction）与演绎（deduction）是科学推理的两大基本手段。前者是从特殊到一般的“泛化”（generalization）过程，即从具体的事实归结出一般性规律；后者则是从一般到特殊的“特化”（specialization）过程，即从基础原理推演出具体状况。

1.4 归纳偏好

机器学习算法在学习过程中对某种类型假设的偏好，称为“归纳偏好”（inductive bias），或简称为“偏好”。任何一个有效的机器学习算法必有其归纳偏好。

“奥卡姆剃刀”（Occam’s razor）是一种常用的、自然科学研究中最基本的原则，即“若有多个假设与观察一致，则选最简单的那个”。

在具体问题现实问题中，算法的归纳偏好是否与问题本身匹配，大多数时候直接决定了算法能否取得好的性能。

无论学习算法a多聪明、学习算法b多笨拙，它们的期望性能是相同的，这就是“没有免费的午餐”（No Free Lunch Theorem，简称NFL定理）。NFL 定理有一个重要前提：所有“问题”出现的机会相同、或所有问题同等重要，但实际情形并不是这样。NFL 定理最重要的寓意是让我们清楚地认识到，脱离具体问题，空泛地谈论“什么学习算法更好”毫无意义，要谈论算法的相对优劣，必须要针对具体的学习问题。学习算法自身的归纳偏好与问题是否相配，往往会起到决定性的作用。

1.5 发展历程

机器学习是人工智能（artificial intelligence）研究发展到一定阶段的必然产物。

决策树学习技术由于简单易用，到今天仍是最常用的机器学习技术之一。事实上，BP算法一直被应用得罪广泛的机器学习算法之一。

连接主义学习的最大局限性是其“试错性”，简单地说，其学习过程涉及大量参数，而参数的设置缺乏理论指导，主要靠手工“调参”，夸张一点说，参数调节上失之毫厘，学习结果可能谬以千里。

二十一世纪初，掀起了以“深度学习”为名的热潮，所谓深度学习，狭义地说就是“很多层”的神经网络。以往机器学习技术在应用中取得好性能，对使用者的要求较高；而深度学习技术涉及的模型复杂度非常高，以至于只要下工夫“调参”，把参数调节好，性能往往就好。因此，深度学习虽然缺乏严格的理论基础，但它显著降低了机器学习应用者的门槛，为机器学习技术走向工程实践带来了便利。

深度学习如今火起来的基本原因有两个：数据大了、计算能力强了。深度学习模型拥有大量参数，若数据样本少，则很容易“过拟合”；如此复杂的模型、如此大的数据样本，若缺乏强力计算设备，根本无法求解。

1.6 应用现状

今天，在技术科学的主动分支学科领域中，无论是多媒体、图形学，还是网络通信、软件工程，乃至体系结构、芯片设计都能找到机器学习技术的身影，尤其是在计算机视觉、自然语言处理等“计算机应用技术”领域，机器学习已成为最重要的技术进步源泉之一。

“计算”的目的往往是数据分析，而数据科学的核心也恰是通过分析数据来获得价值。

若要列出目前计算机科学技术中最活跃、最受瞩目的研究分支，那么机器学习必居其中。

美国国家科学基金会在加州大学伯克利分校启动加强计划，强调要深入研究和整合大数据时代的三个关键技术：机器学习、云计算、众包（crowdsourcing）。

收集、存储、传输、管理大数据的目的是为了“利用”大数据，而如果没有机器学习技术分析数据，则“利用”无从谈起。

资源

周志华《机器学习》系列文章：http://blog.csdn.net/u012318074/article/category/6899087

周志华《机器学习》XMind思维导图笔记：http://pan.baidu.com/s/1eS5S95S 密码：oef0

0 0

周志华《机器学习》第 1 章 绪论

第 1 章 绪论