《机器学习》第一章

来源:互联网 发布:网络礼仪资料 编辑:程序博客网 时间:2024/06/11 05:54

机器学习:在计算机上从数据中产生“模型”的算法,即学习算法。 把经验数据给它,基于经验数据产生模型,面对新的数据,模型会提供相应的判断。

一条数据时一个记录(示例/样本),每个示例也叫一个特征向量,记录(数据)的集合是数据集,样本的属性也叫特征,属性张成的空间叫属性空间,因此把示例也称为特征向量。

有了标记信息的示例叫做 样例(example)。

学习的模型对应关于数据的某种潜在规律,也称为 假设 。

分类:要预测的结果是离散值;分类包括二分类(正类和负类)和多分类。

回归:要预测的结果是连续值。

聚类:计算机对训练集中的数据进行自动分类,每类(组)称为一个“簇”。这些被分类的数据不含有标记信息,认为含有潜在的规律。

根据是否有标记信息,将学习任务分为监督学习(回归和分类)和无监督任务(聚类)。

泛化能力:机器学得的模型除了能在训练集上得到好的结果以外,能否在新样本上得到很好的结果,是否适用于新样本。


假设空间:


归纳偏好:机器学习算法在学习过程中对某种类型假设的偏好。 例如现有3个与训练集一致的假设,算法根据“偏好”来判定哪个假设更好。

                     任何有效的机器学习算法都必有其归纳偏好,因为必须只产生一个结果,只有一个模型,一个测试样本只能对应一个结果才有意义。

奥卡姆剃刀:有多个假设和观察一致时,选择最简单的一个。

                        每个算法及其优劣都是对于具体的问题而言的,算法自身的归纳偏好与问题是否匹配会对结果起到决定性作用。



原创粉丝点击