周志华《机器学习》笔记：第1章绪论

来源：互联网发布：freehand mx for mac 编辑：程序博客网时间：2024/06/18 16:02

1、引言
　　我们常会得到很多基于经验做出的预判。机器学习致力于研究如何通过计算的手段，利用经验来改善系统自身的性能。在计算机系统中，“经验”通常以“数据”形式存在，因此，机器学习所研究的主要内容，是关于在计算机上从数据中产生“模型”的算法，即“学习算法”。

2、基本术语
　　记录的集合称为一个“数据集”，其中每条记录是关于一个事件或对象的描述，称为一个“示例”或“样本”。反映事件或对象在某方面的表现或性质的事项，例如“色泽”“根蒂”，称为“属性”或“特征”。属性上的取值称为“属性值”。属性张成的空间成为“属性空间”、“样本空间”或“输入空间”。一个示例称为一个“特征向量”。
从数据中学得模型的过程称为“学习”或“训练”，这个过程通过执行某个学习算法来完成。训练过程中使用的数据称为“训练数据”，其中每个样本称为一个“训练样本”，训练样本组成的集合称为“训练集”。
关于示例结果的信息，例如“好瓜”，称为“标记”；拥有了标记信息的示例，则称为“样例”。若我们欲预测的是离散值，例如“好瓜”“坏瓜”，此类学习任务称为“分类”；若欲预测的是连续值，例如西瓜成熟度0.95、0.37，此类学习任务称为“回归”。
学得模型后，使用其进行预测的过程称为“测试”，被预测的样本称为”测试样本”。
对西瓜进行“聚类”，即将训练集中的西瓜分成若干组，每组成为一个“簇”；这些自动形成的簇可能对应一些潜在的概念划分，例如“浅色瓜”“深色瓜”。
　　根据训练数据是否拥有标记信息，学习任务可大致划分为两大类：“监督学习”和”无监督学习“，分类和回归是前者的代表，而聚类则是后者的代表。
　　通常假设样本空间中全体样本服从一个未知“分布”，我们获得的每个样本都是独立地从这个分布上采样获得的，即“独立同分布（i.i.d.）”

3、假设空间
　　归纳是从特殊到一般的“泛化”过程，演绎是从一般到特殊的“特化”过程。
　　学习的目的是“泛化”，即通过对训练集中瓜的学习已获得对没见过的瓜进行判断的能力。
　　学习过程看作一个在所以假设组成的空间中进行搜索的过程，搜索目标是找到与训练集“匹配”的假设，即能够将训练集中的瓜判断正确的假设。假设的表示一旦确实，假设空间及其规模大小就却确定了。
　　假设空间由形如“（色泽=？）^（根蒂=？）^（敲声=？）”的可能取值所形成的假设组成。假设空间规模大小为4*4*4+1=65。

4、归纳偏好
　　现在有三个与训练集一致的假设，但与他们对应的模型在面临新样本的时候，却会产生不同的输出。根据仅有的训练样本无法判断三个假设中哪个“更好”。对于一个具体的学习算法而言，它必须要产生一个模型，这时，学习算法本身的“偏好”起到关键左右。例如，若算法喜欢“尽可能特殊”的模型，则会有相应的模型产生。机器学习算法在学习过程中对某种类型假设的偏好，称为“归纳偏好”。
任何一个有效的机器学习算法必有其归纳偏好，否则产生的模型每次在进行预测时随机抽选训练集上的等效假设，学得模型结果不一，显然没有意义。
　“没有免费的午餐”定理（NFL）,认识到脱离具体问题，空泛地谈论“什么学习算法更好”毫无意义，因为若考虑所有潜在问题，则所有学习算法都一样好。

阅读全文

0 0

周志华《机器学习》笔记：第1章 绪论

周志华《机器学习》笔记：第1章绪论