“西瓜书”学习记录

来源:互联网 发布:adobeflashplayer mac 编辑:程序博客网 时间:2024/04/30 02:43

1、什么是机器学习?

机器学习是这样一门学科,它致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。在计算机系统中,“经验”通常以“数据”形式存在,因此,机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型”(model)的算法,即“学习算法”(learning algorithm)。有了学习算法,我们把经验数据提供给它,它就能基于这些数据产生模型;在面对新的情况时,模型会给我们提供相应的判断。如果说计算机科学是研究关于“算法”的学问,那么类似的,可以说机器学习是研究关于“学习算法”的学问。

2、机器学习中的基本术语

数据集 :记录数据的集合称为一个“数据集”(data set)。
样本: 每条记录是关于一个事件或对象的描述,称为一个“示例”(instance)或“样本”(sample)。
特征:反映事件或对象在某方面的表现或性质的事项,称为“属性”(attribute)或“特征”(feature)。
样本空间:属性上的取值称为“属性值”(attribute value) ,属性张成的空间称为“属性空间”(attribute space)、“样本空间”(sample space)或“输入空间”
学习:从数据中学得模型的过程称为“学习”(learning)或“训练”(training),这个过程通过执行某个学习算法来完成。
训练数据:训练过程中使用的数据称为“训练数据”(training data)。
训练样本:训练数据中的每个样本称为一个“训练样本”(training sample)。
训练集:训练样本组成的集合称为“训练集”(training set)。
假设:学得模型对应了关于数据的某种潜在的规律,因此亦称“假设”(hypothesis)。
真相:数据的潜在规律自身,称为“真相”或“真实”(ground-truth)。
学习器:学习过程就是为了找出或逼近真相,因此,也可将模型称为“学习器”(learner),可看作学习算法在给定数据和参数空间上的实例化。
分类:如果预测的是离散值,此类学习任务称为“分类”。
回归: 如果预测的是连续值,此类学习任务称为“回归”。

对只涉及两个类别的“二分类”(binary classification)任务,通常称其中一个类为“正类”(positive class),另一个类为“反类”(negative class)。涉及多个类别时,则称为“多分类”(multi-class classification)任务。

测试: 学得模型后,使用其进行预测的过程称为“测试”(testing),被预测的样本称为“测试样本”(testing sample)。

聚类:将训练集中的样本分成若干组,每组称为一个“簇”(cluster)。

根据训练数据是否拥有标记信息,学习任务可大致划分为两大类:“监督学习”(supervised learning)
和“无监督学习”(unsupervised learning),分类和回归是监督学习的代表,而聚类则是
无监督学习的代表。

机器学习的目标是使学得的模型能很好地适用于“新样本”,而不是仅仅在训练样本上工作的很好;
即便对聚类这样的无监督学习任务,我们也希望学得的簇划分能适用于没在训练集中出现的样本。

泛化能力:学得模型适用于新样本的能力,称为“泛化”能力。
具有强泛化能力的模型能很好地适用于整个样本空间。
尽管训练集通常只是样本空间的一个很小的采样,我们仍希望它能很好地反映出样本空间的特性,
否则就很难期望在训练集上学得的模型能在真个样本空间上都工作得很好。
通常假设样本空间中全体样本服从一个未知“分布”(distribution),我们获得的每个样本
都是独立地从这个分布上采样获得的,即“独立同分布”(independent and identically distributed,简称:i.i.d.)。
一般而言,训练样本越多,我们得到的关于未知分布的信息越多,这样就越有可能通过学习获得具有
强泛化能力的模型。

假设空间
归纳(induction)和演绎(deduction)是科学推理的两大基本手段。
前者是从特殊到一般的“泛化”(generalization)过程,即从具体的事实归结出一般性规律;
后者则是从一般到特殊的“特化”(specialization)过程,即从基础原理推演出具体状况。

原创粉丝点击