机器学习周志华读书笔记第1章绪论

来源：互联网发布：飞凡嵌入式淘宝网编辑：程序博客网时间：2024/06/07 19:20

一、
数据集，样本（示例），属性（特征），属性值，属性空间（样本空间、输入空间），特征向量，维数：
D={x1,x2,...,xm}
xi=(xi1;xi2;...;xid),xi∈X

数据集（data set）：D
样本（sample）、示例（instance）：xi
属性（attribute）、特征（feature）：样本xi有d个属性
属性值（attribute value）：xij
属性空间（attribute space）、样本空间（sample space）、输入空间：X
特征向量（feature vector）：一个示例xi可以成为一个特征向量
维数（demensionality）：d称为样本xi的维数

学习（learning）、训练（training）：从数据中学得模型的过程
训练数据（training data）：训练过程中使用的数据
训练样本（training sample）：训练过程中的每一个样本
训练集（training set）：训练样本组成的集合
学习器（learner）：模型也可称为学习器

二、
标记，样例，标记空间（输出空间）
（xi,yi），yi∈Y

标记（label）：获得训练样本的“结果”信息，yi
样例（example）：拥有标记信息的示例，（xi,yi）
标记空间（label space）、输出空间：所有标记的集合Y

三、
学习任务：分类、回归
分类（classification）：预测的是离散值
回归（regression）：预测的是连续值
分类：二分类、多分类
二分类（binary classification）：只涉及两个类别，称其中一个类为“正类”（positive class），另一个类为“反类”（negative class）
多分类（multi-class classification）：涉及多个分类

测试（testing）：学得模型后，使用其进行预测的过程
测试样本（testing sample）：被预测的样本

聚类（clustering）：将训练集中的样本分成若干组，每组称为一个“簇”（cluster）
聚类学习过程中，使用的训练样本通常不拥有标记信息

学习任务：监督学习，无监督学习
监督学习（supervised learning）：训练数据拥有标记信息，如分类和回归
无监督学习（unsupervised learning）：训练数据不拥有标记信息，如聚类

“泛化”能力（generalization）：学得模型适用于新样本的能力

四、
假设空间（hypothesis space）：模型属于由输入空间到输出空间的映射的集合，这个集合就是假设空间
版本空间（version space）：概念学习中与已知数据集一致的所有假设的子集集合
学习过程中，可以不断删除与正例不一致的假设、和（或）与反例一致的假设，最终获得对所有训练样本能够进行正确判断的假设，即学得结果。

归纳偏好（inductive bias）：机器学习算法在学习过程中对某种类型假设的偏好
“奥多姆剃刀”（Occam's razor）：若有多个假设与观察一致，则选最简单的那个
“没有免费的午餐”定理（No Free Lunch Theorem）（NFL定理）：由于对所有可能函数的相互补偿，最优化算法的性能是等价的

0 0

机器学习 周志华 读书笔记 第1章 绪论

机器学习周志华读书笔记第1章绪论