周志华《机器学习》笔记:第1章 绪论

来源:互联网 发布:freehand mx for mac 编辑:程序博客网 时间:2024/06/18 16:02

1、引言 
  我们常会得到很多基于经验做出的预判。机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。在计算机系统中,“经验”通常以“数据”形式存在,因此,机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型”的算法,即“学习算法”。

2、基本术语 
  记录的集合称为一个“数据集”,其中每条记录是关于一个事件或对象的描述,称为一个“示例”或“样本”。反映事件或对象在某方面的表现或性质的事项,例如“色泽”“根蒂”,称为“属性”或“特征”。属性上的取值称为“属性值”。属性张成的空间成为“属性空间”、“样本空间”或“输入空间”。一个示例称为一个“特征向量”。 
从数据中学得模型的过程称为“学习”或“训练”,这个过程通过执行某个学习算法来完成。训练过程中使用的数据称为“训练数据”,其中每个样本称为一个“训练样本”,训练样本组成的集合称为“训练集”。 
关于示例结果的信息,例如“好瓜”,称为“标记”;拥有了标记信息的示例,则称为“样例”。若我们欲预测的是离散值,例如“好瓜”“坏瓜”,此类学习任务称为“分类”;若欲预测的是连续值,例如西瓜成熟度0.95、0.37,此类学习任务称为“回归”。 
学得模型后,使用其进行预测的过程称为“测试”,被预测的样本称为”测试样本”。 
对西瓜进行“聚类”,即将训练集中的西瓜分成若干组,每组成为一个“簇”;这些自动形成的簇可能对应一些潜在的概念划分,例如“浅色瓜”“深色瓜”。 
  根据训练数据是否拥有标记信息,学习任务可大致划分为两大类:“监督学习”和”无监督学习“,分类和回归是前者的代表,而聚类则是后者的代表。 
  通常假设样本空间中全体样本服从一个未知“分布”,我们获得的每个样本都是独立地从这个分布上采样获得的,即“独立同分布(i.i.d.)”

3、假设空间 
  归纳是从特殊到一般的“泛化”过程,演绎是从一般到特殊的“特化”过程。 
  学习的目的是“泛化”,即通过对训练集中瓜的学习已获得对没见过的瓜进行判断的能力。 
  学习过程看作一个在所以假设组成的空间中进行搜索的过程,搜索目标是找到与训练集“匹配”的假设,即能够将训练集中的瓜判断正确的假设。假设的表示一旦确实,假设空间及其规模大小就却确定了。 
  假设空间由形如“(色泽=?)^(根蒂=?)^(敲声=?)”的可能取值所形成的假设组成。假设空间规模大小为4*4*4+1=65。

4、归纳偏好 
  现在有三个与训练集一致的假设,但与他们对应的模型在面临新样本的时候,却会产生不同的输出。根据仅有的训练样本无法判断三个假设中哪个“更好”。对于一个具体的学习算法而言,它必须要产生一个模型,这时,学习算法本身的“偏好”起到关键左右。例如,若算法喜欢“尽可能特殊”的模型,则会有相应的模型产生。机器学习算法在学习过程中对某种类型假设的偏好,称为“归纳偏好”。 
任何一个有效的机器学习算法必有其归纳偏好,否则产生的模型每次在进行预测时随机抽选训练集上的等效假设,学得模型结果不一,显然没有意义。 
 “没有免费的午餐”定理(NFL),认识到脱离具体问题,空泛地谈论“什么学习算法更好”毫无意义,因为若考虑所有潜在问题,则所有学习算法都一样好。

阅读全文
0 0
原创粉丝点击