机器学习之——绪论部分

来源：互联网发布：淘宝网怎么加好友呢编辑：程序博客网时间：2024/05/22 15:11

绪论部分内容主要包含机器学习发展历程的简介，机器学习的大致介绍，以及专业术语的介绍。虽然并无具体的算法介绍，但是对于正本书的理解大有帮助。

1. 机器学习的发展历程：

现如今比较承认的机器学习（machine learning）的定义是：“不显示编程地赋予计算机能力的研究领域”。（萨缪尔）关于机器学习的分类主要包含机械学习，示教学习，类比学习，归纳学习。（《人工智能手册》）目前流行的研究领域主要是归纳学习。归纳学习也被科学家们称作“从样例中学习”。目前，归纳学习主要包含有：符号主义学习、连接主义学习、统计学习。其中符号主义学习主要是以决策树和基于逻辑的学习，而连接主义和统计学习是以目前的热门的神经网络和SVM、核技术等为代表的学习方法。关于归纳学习到底应不应该进行这样的划分，未来机器学习的发展是否会将这些层面融合都是有意思的问题。

2. 机器学习中的术语简介：

机器学习的理论基础和线性代数有很大联系，介绍术语时必然会和线性代数有所联系。

2.1 数据集（Data Set）：一个关于事件或对象的属性值的集合，包含多个对象，且一个对象包含多个属性值，由此可以构成一个二维矩阵。

2.2 属性（attribute）或特征（feature）：上述二维矩阵的一行可以代表一类事物的一个属性，比如西瓜的外皮颜色，敲声（书中例子）

2.3 属性值：一个对象（样本）的一个属性的取值，往往在矩阵中体现为第i行第j列的值

2.4 属性空间（attribute space）或样本空间（sample space）：有多个属性组成的多维空间，如例子中颜色和敲声可以组成二维属性空间,每个样本都是空间中一个确定的点

2.5 特征向量（feature vector）每一个样本所有特征值组成的（列）向量

2.6 维数（dimensionality）：特征向量的维数

2.7 学习（learning）或训练（training）：执行算法进行学习归纳

2.8 训练数据（training data）和训练样本（training sample）和训练集：训练学习过程中使用的数据叫训练数据，其中的每个样本称为训练样本，样本组成的集合叫训练集（ps：训练数据和训练集有什么区别嘛......）

2.9 假设（hypothesis）和真相（ground truth）：数据集中真实存在的规律称之为真相，学习得到的模型描述数据中规律称之为假设。学习算法的目的是使假设逼近真相。

3.0 标记（label）和标记空间（label space）：在预测模型中，样例数据中含有的"结果"称之为标记，比如预测西瓜质量，好瓜坏瓜就是样本数据的标记，，所有标记的集合称之为标记空间

3.1 分类（classification）和回归（regression）：在预测模型中，预测的值为离散型称之为分类，连续性称之为回归。特别的，在离散型二分类中有正类反类的说法。

3.2 聚类（clustering）：将样本数据集进行分组称之为聚类，注意区分聚类与分类，关键在于是否用到标记，分类是一个预测模型，会用到标记，而聚类则不用。

3.3 监督学习（supervised learning）和无监督学习（unsupervised learning）：是否有标记信息，分类回归是监督学习代表，聚类为无监督学习的代表

3.4 泛化（generalization）能力：学习或训练得到的模型能否很好的适应与整个样本空间，简单来说就是归纳学习得到的一个“概念”，是否能进行很好的概括，能否很好适应新样本数据。

3.5 假设空间：上文提到假设，假设空间就是假设的集合，比如我们通过颜色和敲声来预测西瓜好坏时，我们可以假设绿皮敲声清脆或沉闷的瓜就是好瓜，当然我们也可以有其它假设，假设空间包含所有对于好瓜的假设。很多学习的算法就是从假设空间中搜索到合理的假设，得到归纳学习的模型。

3.6 版本空间（version space）：在假设空间中会有很多假设与训练集一致，这些假设集合称之为版本空间。

3.7 归纳偏好：既然有多个版本那应该如何进行取舍，归纳偏好就是取舍的准则。

1 0