第一章 绪论

来源:互联网 发布:ubuntu添加用户到组 编辑:程序博客网 时间:2024/06/10 08:07

1.1 引言

在计算机系统中,“经验”通常以“数据”形式存在,因此,机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型”的算法,即“学习算法”。有了学习算法,我们把经验数据提供给它,它就能基于这些数据产生模型;在面对新的情况时,模型会给我们提供相应的判断。(周志华)

假设用P来评估计算机程序在某任务类T上的性能,若一个程序通过利用经验E在T中任务上获得了性能改善,则我们就说关于T和P,该程序对E进行了学习。(Mitchell)

Machine learning is an application of artificial intelligence that automates analytical model building by using algorithms that iteratively learn from data without being explicitly programmed where to look.(wiki)

1.2基本术语

样本:属性、属性值、样本空间、特征向量、维数
训练、测试、分类、回归、有监督学习、无监督学习。
评价指标:泛化能力。

1.3假设空间

归纳:从特殊到一般的泛化过程。即从具体的事实归结出一般性规律。
演绎:从一般到特殊的特化过程。即从基础原理推演出具体情况。
概念学习:通过描述概念的若干正例和反例训练样本,归纳出该概念的通用定义。其学习过程就是在假设空间中的搜索过程。搜索过程中可以不断删除与正例不一致的假设、或与反例一致的假设。最终将会获得与训练集一致的假设。
搜索策略:自顶向下,自底向上,从一般都特殊,从特殊到一般。
Note: 归纳学习的前提假设,对于任意假设,如果在足够大的训练集合中,能够很好地拟合目标函数,则在实例空间中也能够很好地拟合目标函数。

1.4归纳偏好

机器学习算法在学习过程中队某种类型假设的偏好,称为归纳偏好。任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集熵等效的假设所迷惑,而无法产生确定的学习结果。

奥卡姆剃刀:若有多个假设与观察一致,则选最简单的那个。

NFL定理:无论学习算法的聪明与笨拙,它们的期望性能是相同的。但是。NFL定理的一个重要前提是,所有问题出现的机会相同。这也就说明了归纳偏好的重要性。学习算法自身的归纳偏好与问题是否匹配,往往会起到决定性作用。

1.5发展历程

推理期:赋予机器逻辑推理能力。(五十年代到七十年代初)
知识期:机器必须拥有知识才能拥有智能。(七十年代中期)
学习期:让机器去学习。从样例中学习、符号主义学习、基于神经网络的连接主义学习。(八十年代)
统计学习:支持向量机、核方法。(九十年代中期)
深度学习:很多层的神经网络。(二十一世纪初)

1.6应用现状

习题

1.1 答:如图1.1。
图1.1

1.2 答:
表1.1中,色泽属性有2个属性值,根蒂和敲声属性分别有3个属性值,所以假设空间中一共有3*4*4+1=49种假设。在不考虑冗余的情况下,最多包含k个合取式来表达假设空间,则一共有这里写图片描述种可能,但是其中包含了很多冗余的情况。

如果考虑冗余情况,这48中假设中(暂时不考虑空集),具体假设有2*3*3=18种,一个泛化属性假设有2*3+2*3+3*3=21种,两个泛化属性有2+3+3=8种,三个泛化属性只有1种。
???

1.3 答:如果噪声数据里包含相同属性出现两种不同情况的分类,第一种解决方案是它分为和相近属性的在同一类。如果无法判断相近属性的分类,则可以同时删除相同属性不同分类的数据。

1.4 答:
已知,这里写图片描述

则对所有可能的f按均匀分布对误差求和,得到
这里写图片描述

要想证明NFL定理,只需要证明这里写图片描述是一个常数,与f的选择无关。而它是对所有的f求和,确实与f无关,所以NFL定理得证。

1.5 答: 商品搜索推荐、图片搜索。

原创粉丝点击