《机器学习》第一章

来源：互联网发布：网络礼仪资料编辑：程序博客网时间：2024/06/11 05:54

机器学习：在计算机上从数据中产生“模型”的算法，即学习算法。把经验数据给它，基于经验数据产生模型，面对新的数据，模型会提供相应的判断。

一条数据时一个记录（示例/样本），每个示例也叫一个特征向量，记录（数据）的集合是数据集，样本的属性也叫特征，属性张成的空间叫属性空间，因此把示例也称为特征向量。

有了标记信息的示例叫做样例（example）。

学习的模型对应关于数据的某种潜在规律，也称为假设。

分类：要预测的结果是离散值；分类包括二分类（正类和负类）和多分类。

回归：要预测的结果是连续值。

聚类：计算机对训练集中的数据进行自动分类，每类（组）称为一个“簇”。这些被分类的数据不含有标记信息，认为含有潜在的规律。

根据是否有标记信息，将学习任务分为监督学习（回归和分类）和无监督任务（聚类）。

泛化能力：机器学得的模型除了能在训练集上得到好的结果以外，能否在新样本上得到很好的结果，是否适用于新样本。

假设空间：

归纳偏好：机器学习算法在学习过程中对某种类型假设的偏好。例如现有3个与训练集一致的假设，算法根据“偏好”来判定哪个假设更好。

任何有效的机器学习算法都必有其归纳偏好，因为必须只产生一个结果，只有一个模型，一个测试样本只能对应一个结果才有意义。

奥卡姆剃刀：有多个假设和观察一致时，选择最简单的一个。

每个算法及其优劣都是对于具体的问题而言的，算法自身的归纳偏好与问题是否匹配会对结果起到决定性作用。

阅读全文

0 0