机器学习笔记(1)---基本知识

来源：互联网发布：7zip解压软件下载编辑：程序博客网时间：2024/05/21 07:05

基本知识

①数据集：一组数据的集合被称为数据集。有时，整个数据集也被称为样本。

②从数据中学的模型的过程称为学习（learning）或者训练（training）。整个过程通过执行某个学习算法完成，训练过程中使用的数据称为‘训练数据’（training data），

其中每个样本被称为‘训练样本’（training sample），训练样本组成的集合称为‘训练集’（training set）。学得模型对应了关于数据的某种潜在规律，因此称为‘假设’；

这种潜在规律自身被称为‘真相’或者‘真实’。学习过程就是为了找出或者逼近真相，有时我们又将模型称为‘学习器’。

③学得模型后，使用其进行预测的过程称为‘测试’（testing），被预测的样本被称为‘测试样本’（testing sample）。

④若预测的是连续值，例如西瓜的成熟度0.95，,037，此类学习任务被称为回归（regression）。

⑤对只涉及两个类别的‘二分类’（binary classification）任务，通常称其中一个类为‘正类’（positive class），另一个类被称为‘反类’（negative class）；

涉及多个类别时，则称为‘多分类’（multi-class classification）任务。

⑥学得模型适用于新样本的能力，称为‘泛化’（generalization）能力。

⑦从样例中学习，是一个归纳的过程，因此亦称‘归纳学习’。

⑧归纳学习有狭义和广义之分。广义的归纳学习大体相当于从样例中学习，而狭义的归纳学习则要求从训练数据中学得概念，因此又称‘概念学习’或者‘概念形成’。

⑨和训练集一致的‘假设集合’，称为‘版本空间’。

⑩任何一个有效的机器学习算法必有其归纳偏好，否则它将被假设空间中看似在训练集上‘等效’的假设所迷惑，而无法产生确定的学习结果。

⑪奥卡姆剃刀原则：若有多个假设和观察一致，则选最简单的那个。

0 0