机器学习之——绪论部分

来源:互联网 发布:淘宝网怎么加好友呢 编辑:程序博客网 时间:2024/05/22 15:11

绪论部分内容主要包含机器学习发展历程的简介,机器学习的大致介绍,以及专业术语的介绍。虽然并无具体的算法介绍,但是对于正本书的理解大有帮助。

1. 机器学习的发展历程:

现如今比较承认的机器学习(machine learning)的定义是:“不显示编程地赋予计算机能力的研究领域”。(萨缪尔)关于机器学习的分类主要包含机械学习,示教学习,类比学习,归纳学习。(《人工智能手册》)目前流行的研究领域主要是归纳学习。归纳学习也被科学家们称作“从样例中学习”。目前,归纳学习主要包含有:符号主义学习、连接主义学习、统计学习。其中符号主义学习主要是以决策树和基于逻辑的学习,而连接主义和统计学习是以目前的热门的神经网络和SVM、核技术等为代表的学习方法。关于归纳学习到底应不应该进行这样的划分,未来机器学习的发展是否会将这些层面融合都是有意思的问题。

2. 机器学习中的术语简介:

机器学习的理论基础和线性代数有很大联系,介绍术语时必然会和线性代数有所联系。

2.1 数据集(Data Set):一个关于事件或对象的属性值的集合,包含多个对象,且一个对象包含多个属性值,由此可以构成一个二维矩阵。

2.2 属性(attribute)或特征(feature):上述二维矩阵的一行可以代表一类事物的一个属性,比如西瓜的外皮颜色,敲声(书中例子)

2.3 属性值:一个对象(样本)的一个属性的取值,往往在矩阵中体现为第i行第j列的值

2.4 属性空间(attribute space)或样本空间(sample space): 有多个属性组成的多维空间,如例子中颜色和敲声可以组成二维属性空间,每个样本都是空间中一个确定的点

2.5 特征向量(feature vector)每一个样本所有特征值组成的(列)向量

2.6 维数(dimensionality):特征向量的维数

2.7 学习(learning)或训练(training): 执行算法进行学习归纳

2.8 训练数据(training data)和训练样本(training sample)和训练集:训练学习过程中使用的数据叫训练数据,其中的每个样本称为训练样本,样本组成的集合叫训练集(ps:训练数据和训练集有什么区别嘛......)

2.9 假设(hypothesis)和真相(ground truth):数据集中真实存在的规律称之为真相,学习得到的模型描述数据中规律称之为假设。学习算法的目的是使假设逼近真相。

3.0 标记(label)和标记空间(label space): 在预测模型中,样例数据中含有的"结果"称之为标记,比如预测西瓜质量,好瓜坏瓜就是样本数据的标记,,所有标记的集合称之为标记空间

3.1 分类(classification)和回归(regression):在预测模型中,预测的值为离散型称之为分类,连续性称之为回归。特别的,在离散型二分类中有正类反类的说法。

3.2 聚类(clustering):将样本数据集进行分组称之为聚类,注意区分聚类与分类,关键在于是否用到标记,分类是一个预测模型,会用到标记,而聚类则不用。

3.3 监督学习(supervised learning)和无监督学习(unsupervised learning):是否有标记信息,分类回归是监督学习代表,聚类为无监督学习的代表

3.4 泛化(generalization)能力:学习或训练得到的模型能否很好的适应与整个样本空间,简单来说就是归纳学习得到的一个“概念”,是否能进行很好的概括,能否很好适应新样本数据。

3.5 假设空间:上文提到假设,假设空间就是假设的集合,比如我们通过颜色和敲声来预测西瓜好坏时,我们可以假设绿皮敲声清脆或沉闷的瓜就是好瓜,当然我们也可以有其它假设,假设空间包含所有对于好瓜的假设。很多学习的算法就是从假设空间中搜索到合理的假设,得到归纳学习的模型。

3.6 版本空间(version space): 在假设空间中会有很多假设与训练集一致,这些假设集合称之为版本空间。

3.7 归纳偏好:既然有多个版本那应该如何进行取舍,归纳偏好就是取舍的准则。



1 0