机器学习笔记(1)---基本知识

来源:互联网 发布:7zip解压软件下载 编辑:程序博客网 时间:2024/05/21 07:05

基本知识

①数据集:一组数据的集合被称为数据集。有时,整个数据集也被称为样本。

②从数据中学的模型的过程称为学习(learning)或者训练(training)。整个过程通过执行某个学习算法完成,训练过程中使用的数据称为‘训练数据’(training data),

其中每个样本被称为‘训练样本’(training sample),训练样本组成的集合称为‘训练集’(training set)。学得模型对应了关于数据的某种潜在规律,因此称为‘假设’;

这种潜在规律自身被称为‘真相’或者‘真实’。学习过程就是为了找出或者逼近真相,有时我们又将模型称为‘学习器’。

③学得模型后,使用其进行预测的过程称为‘测试’(testing),被预测的样本被称为‘测试样本’(testing sample)。

④若预测的是连续值,例如西瓜的成熟度0.95,,037,此类学习任务被称为回归(regression)。

⑤对只涉及两个类别的‘二分类’(binary classification)任务,通常称其中一个类为‘正类’(positive class),另一个类被称为‘反类’(negative class);

涉及多个类别时,则称为‘多分类’(multi-class classification)任务。

⑥学得模型适用于新样本的能力,称为‘泛化’(generalization)能力。

⑦从样例中学习,是一个归纳的过程,因此亦称‘归纳学习’。

⑧归纳学习有狭义和广义之分。广义的归纳学习大体相当于从样例中学习,而狭义的归纳学习则要求从训练数据中学得概念,因此又称‘概念学习’或者‘概念形成’。

⑨和训练集一致的‘假设集合’,称为‘版本空间’。

⑩任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上‘等效’的假设所迷惑,而无法产生确定的学习结果。

⑪奥卡姆剃刀原则:若有多个假设和观察一致,则选最简单的那个。




0 0
原创粉丝点击