第一章 绪论(及部分课后习题)

来源:互联网 发布:谷歌娘软件下载 编辑:程序博客网 时间:2024/05/29 04:27

1.1 引言

机器学习是一门这样的学科,它致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。在计算机系统中,“经验”通常以“数据”形式存在,所以,我们需要从数据中产生“模型”的算法,即“学习算法”。有了学习算法,我们把经验数据提供给它,它就能基于这些数据产生模型;在面对新的情况时,模型会给我们提供相应的判断。

1.2 基本术语

数据集

一组记录的集合称为一个“数据集”,其中每条记录是关于一个事件或对象的描述,称为一个“示例”或“样本”。

属性(特征)

反映事件或对象在某方面的表现或性质的事项,属性上的取值称为属性值。属性张成的空间称为“属性空间”、“样本空间”或“输入空间”。把每个属性展开成多维空间,然后每个坐标位置都可以在空间中找到。由于每个空间中的每个点对应一个坐标向量,因此我们也把一个示例称为一个“特征向量”。

维数

这里写图片描述

标记、样例

关于“预测”的模型,我们需要获得训练样本的“结果信息”,例如“((色泽=青绿;根蒂=蜷缩;敲声=浊响),好瓜)”。这里,例如“好瓜”,称为“标记”;拥有了标记信息的示例,则称为“样例”。

分类

若我们欲预测的是离散值,例如“好瓜”“坏瓜”,此类学习任务称为分类。对只涉及两个类别的“二分类”,通常称其中一个类为“正类”,另一类称为反类。

测试

学得模型后,使用其进行预测的过程称为“测试”,被预测的样本称为“测试样本”。例如在学得f后,对测试例x,可得到其预测标记y=f(x).

聚类、簇

还是举西瓜的例子,对西瓜做“聚类”,即将训练集中的西瓜分成若干组,每组称为一个“簇”;这些自动形成的簇可能对应一些潜在的概念划分,例如“浅色瓜”“深色瓜”。但是在聚类学习中,上述的概念我们事先是不知道的,而且学习过程中使用的训练样本通常不拥有标记信息。

监督学习、无监督学习

这个是根据训练数据是否拥有标记信息,分类和回归是“监督学习”的代表,聚类则是“无监督学习”的代表。

泛化

学得模型适用于新样本的能力,称为“泛化”能力。具有强泛化能力的模型能很好地适用于整个样本空间。通常假设样本空间中全体样本服从一个未知“分布”D,我们获得的每个样本都是独立地从这个分布上采样获得的,即“独立同分布”。一般而言,训练样本越多,我们得到的关于D的信息越多,这样就越有可能通过学习获得具有强泛化能力的模型。

1.3 假设空间

归纳与演绎

归纳是从特殊到一般的“泛化”过程。演绎则是从一般到特殊的“特化”过程。“从样例中学习”显然是一个归纳的过程,因此也成为“归纳学习”。这又分为狭义和广义之分,广义的归纳学习大体相当于从样例中学习,而狭义的归纳学习则要求从训练数据中学得概念,因此也成为“概念学习”或“概念形成”。但是这种学习应用较少,因为要学得泛化性能好且语义明确的概念实在太困难了。

布尔概念学习

概念学习中最基本的是布尔概念学习,即对“是”“不是”这样的可表示为0和1布尔值的目标概念学习。以一个西瓜的数据集为例

这里写图片描述

这里写图片描述

版本空间

现实问题中我们常面临很大的假设空间,但学习过程是基于有限样本训练集进行的,因此,可能有多个假设与训练集一致,即存在着一个与训练集一致的“假设集合”,称为“版本空间”。西瓜问题对应的版本空间如图:

这里写图片描述

1.4 归纳偏好

这里写图片描述

归纳偏好可看作学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式或“价值观”。

习题1.1

这里写图片描述

若表1.1中只包含编号为1和4的两个样例,试给出相应的版本空间。

版本空间是所有与训练集一致的子集。
数据集4为例:

(色泽=乌黑;根蒂=*;敲声=*)(色泽=*;根蒂=*;敲声=沉闷)(色泽==*;根蒂=稍蜷;敲声=*)(色泽=乌黑;根蒂=稍蜷;敲声=*)(色泽=乌黑;根蒂=*;敲声=沉闷)(色泽=*;根蒂=稍蜷;敲声=沉闷)(色泽=乌黑;根蒂=稍蜷;敲声=沉闷)(色泽=*;根蒂=*;敲声=*

习题1.2
若使用最多包含k个合取式的析合范式来表达表1.1西瓜分类问题的假设空间,试估算共有多少种可能的假设。

首先,以上一题的合取式为例,共有8个合取范式,每个范式取或不取会有两种情况,所以共有2的8次方-1中情况。

习题1.3
若数据包含噪声,则假设空间中有可能不存在与所有训练样本都一致的假设。在此情形下,试设计一种归纳偏好用于假设选择。

数据噪声是指在一组数据中无法解释的数据变动,就是一些不和其他数据相一致的数据。
所以如果数据量比较大,我们可以适当的删除掉这些数据,而数据量比较小的时候,就需要放宽一些范围,而保留这些数据。