机器学习基本术语

来源:互联网 发布:电商大数据分析 编辑:程序博客网 时间:2024/05/23 21:41

分类(classification):若我们欲预测的是离散值,如“好瓜”“坏瓜”,此类学习任务成为“分类”。(有导师学习)

回归(regression):若预测的是连续值,如西瓜成熟度0.65,0.78,此类学习任务称为“回归”。(有导师学习)

聚类(clustering):将训练集分成若干组(簇),这些簇可能对应一些潜在的概念划分,如“浅色瓜”“深色瓜”。注:在聚类学习中,“浅色瓜”“深色瓜”这样的概念我们事先是不知道的,且学习过程中使用的训练样本通常不拥有标记信息。

---

学习(learning)/训练(training):从数据中学得模型的过程。

训练数据:训练过程中使用的数据。

训练集:训练样本组成的集合。

真相/真实:关于数据的某种潜在规律自身。学习过程就是为了找出或逼近真相。

---

根据训练数据是否有标记信息,学习任务可分为:监督学习 和 无监督学习。分类、回归是监督学习,聚类是非监督学习。

---

泛化能力:学得模型适用于新样本的能力。

---

归纳偏好:机器学习算法在学习过程中对某种类型假设的偏好,如算法喜欢“好瓜<->(色泽=*)^(根蒂=蜷缩)^(敲声=*)”。注:任何一个有效的学习算法必有其归纳偏好,否则它将被假设空间中假设所迷惑。




参考文献:《机器学习》周志华著



0 0