第一章 绪论(及部分课后习题)
来源:互联网 发布:谷歌娘软件下载 编辑:程序博客网 时间:2024/05/29 04:27
1.1 引言
机器学习是一门这样的学科,它致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。在计算机系统中,“经验”通常以“数据”形式存在,所以,我们需要从数据中产生“模型”的算法,即“学习算法”。有了学习算法,我们把经验数据提供给它,它就能基于这些数据产生模型;在面对新的情况时,模型会给我们提供相应的判断。
1.2 基本术语
数据集
一组记录的集合称为一个“数据集”,其中每条记录是关于一个事件或对象的描述,称为一个“示例”或“样本”。
属性(特征)
反映事件或对象在某方面的表现或性质的事项,属性上的取值称为属性值。属性张成的空间称为“属性空间”、“样本空间”或“输入空间”。把每个属性展开成多维空间,然后每个坐标位置都可以在空间中找到。由于每个空间中的每个点对应一个坐标向量,因此我们也把一个示例称为一个“特征向量”。
维数
标记、样例
关于“预测”的模型,我们需要获得训练样本的“结果信息”,例如“((色泽=青绿;根蒂=蜷缩;敲声=浊响),好瓜)”。这里,例如“好瓜”,称为“标记”;拥有了标记信息的示例,则称为“样例”。
分类
若我们欲预测的是离散值,例如“好瓜”“坏瓜”,此类学习任务称为分类。对只涉及两个类别的“二分类”,通常称其中一个类为“正类”,另一类称为反类。
测试
学得模型后,使用其进行预测的过程称为“测试”,被预测的样本称为“测试样本”。例如在学得f后,对测试例x,可得到其预测标记y=f(x).
聚类、簇
还是举西瓜的例子,对西瓜做“聚类”,即将训练集中的西瓜分成若干组,每组称为一个“簇”;这些自动形成的簇可能对应一些潜在的概念划分,例如“浅色瓜”“深色瓜”。但是在聚类学习中,上述的概念我们事先是不知道的,而且学习过程中使用的训练样本通常不拥有标记信息。
监督学习、无监督学习
这个是根据训练数据是否拥有标记信息,分类和回归是“监督学习”的代表,聚类则是“无监督学习”的代表。
泛化
学得模型适用于新样本的能力,称为“泛化”能力。具有强泛化能力的模型能很好地适用于整个样本空间。通常假设样本空间中全体样本服从一个未知“分布”D,我们获得的每个样本都是独立地从这个分布上采样获得的,即“独立同分布”。一般而言,训练样本越多,我们得到的关于D的信息越多,这样就越有可能通过学习获得具有强泛化能力的模型。
1.3 假设空间
归纳与演绎
归纳是从特殊到一般的“泛化”过程。演绎则是从一般到特殊的“特化”过程。“从样例中学习”显然是一个归纳的过程,因此也成为“归纳学习”。这又分为狭义和广义之分,广义的归纳学习大体相当于从样例中学习,而狭义的归纳学习则要求从训练数据中学得概念,因此也成为“概念学习”或“概念形成”。但是这种学习应用较少,因为要学得泛化性能好且语义明确的概念实在太困难了。
布尔概念学习
概念学习中最基本的是布尔概念学习,即对“是”“不是”这样的可表示为0和1布尔值的目标概念学习。以一个西瓜的数据集为例
版本空间
现实问题中我们常面临很大的假设空间,但学习过程是基于有限样本训练集进行的,因此,可能有多个假设与训练集一致,即存在着一个与训练集一致的“假设集合”,称为“版本空间”。西瓜问题对应的版本空间如图:
1.4 归纳偏好
归纳偏好可看作学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式或“价值观”。
习题1.1
若表1.1中只包含编号为1和4的两个样例,试给出相应的版本空间。
版本空间是所有与训练集一致的子集。
以数据集4为例:
(色泽=乌黑;根蒂=*;敲声=*)(色泽=*;根蒂=*;敲声=沉闷)(色泽==*;根蒂=稍蜷;敲声=*)(色泽=乌黑;根蒂=稍蜷;敲声=*)(色泽=乌黑;根蒂=*;敲声=沉闷)(色泽=*;根蒂=稍蜷;敲声=沉闷)(色泽=乌黑;根蒂=稍蜷;敲声=沉闷)(色泽=*;根蒂=*;敲声=*)
习题1.2
若使用最多包含k个合取式的析合范式来表达表1.1西瓜分类问题的假设空间,试估算共有多少种可能的假设。
首先,以上一题的合取式为例,共有8个合取范式,每个范式取或不取会有两种情况,所以共有2的8次方-1中情况。
习题1.3
若数据包含噪声,则假设空间中有可能不存在与所有训练样本都一致的假设。在此情形下,试设计一种归纳偏好用于假设选择。
数据噪声是指在一组数据中无法解释的数据变动,就是一些不和其他数据相一致的数据。
所以如果数据量比较大,我们可以适当的删除掉这些数据,而数据量比较小的时候,就需要放宽一些范围,而保留这些数据。
- 第一章 绪论(及部分课后习题)
- 《现代操作系统(中文第三版)》课后习题——第一章 绪论
- 数据结构课后绪论习题
- C++程序设计课后习题及解答(第一章)
- 第一章 绪论习题
- 数据结构与算法分析(java语言描述) 部分课后习题答案 第一章
- Agile Java(第一章)课后习题
- 第一章课后习题
- 第一章课后习题
- 第一章课后习题
- 第一章课后习题
- 第一章 绪论习题参考答案
- 数据结构C++版第一章绪论课后笔记
- 编程珠玑第一章课后习题
- Liunx第一章课后习题(问答题)
- 第一章 Linux概述课后习题
- 自考本科《计算机网络原理》课后习题参考答案(第一章)
- 算法竞赛入门经典(第二版)第一章课后习题
- 数据库交互
- 高等代数第2章 行列式
- 机器学习-学习笔记 学习总结归纳(第四周)
- get和post
- Android数据存储与IO.SharedPreferences
- 第一章 绪论(及部分课后习题)
- 4372 Count the Buildings(2012 Multi-University Training Contest 8)第一类strling数
- C++中string.find()的误用
- 【springboog实践】图片上传与显示
- 调研NAT技术和代理服务器
- 一、C_base——linux基本操作
- Java中this的功能与作用
- Android中SQLite数据库存储方式
- 浅析C/C++中sort函数的用法