第一章绪论

来源：互联网发布：ubuntu添加用户到组编辑：程序博客网时间：2024/06/10 08:07

1.1 引言

在计算机系统中，“经验”通常以“数据”形式存在，因此，机器学习所研究的主要内容，是关于在计算机上从数据中产生“模型”的算法，即“学习算法”。有了学习算法，我们把经验数据提供给它，它就能基于这些数据产生模型；在面对新的情况时，模型会给我们提供相应的判断。（周志华）

假设用P来评估计算机程序在某任务类T上的性能，若一个程序通过利用经验E在T中任务上获得了性能改善，则我们就说关于T和P，该程序对E进行了学习。（Mitchell）

Machine learning is an application of artificial intelligence that automates analytical model building by using algorithms that iteratively learn from data without being explicitly programmed where to look.(wiki)

1.2基本术语

样本：属性、属性值、样本空间、特征向量、维数
训练、测试、分类、回归、有监督学习、无监督学习。
评价指标：泛化能力。

1.3假设空间

归纳：从特殊到一般的泛化过程。即从具体的事实归结出一般性规律。
演绎：从一般到特殊的特化过程。即从基础原理推演出具体情况。
概念学习：通过描述概念的若干正例和反例训练样本，归纳出该概念的通用定义。其学习过程就是在假设空间中的搜索过程。搜索过程中可以不断删除与正例不一致的假设、或与反例一致的假设。最终将会获得与训练集一致的假设。
搜索策略：自顶向下，自底向上，从一般都特殊，从特殊到一般。
Note：归纳学习的前提假设，对于任意假设，如果在足够大的训练集合中，能够很好地拟合目标函数，则在实例空间中也能够很好地拟合目标函数。

1.4归纳偏好

机器学习算法在学习过程中队某种类型假设的偏好，称为归纳偏好。任何一个有效的机器学习算法必有其归纳偏好，否则它将被假设空间中看似在训练集熵等效的假设所迷惑，而无法产生确定的学习结果。

奥卡姆剃刀：若有多个假设与观察一致，则选最简单的那个。

NFL定理：无论学习算法的聪明与笨拙，它们的期望性能是相同的。但是。NFL定理的一个重要前提是，所有问题出现的机会相同。这也就说明了归纳偏好的重要性。学习算法自身的归纳偏好与问题是否匹配，往往会起到决定性作用。

1.5发展历程

推理期：赋予机器逻辑推理能力。（五十年代到七十年代初）
知识期：机器必须拥有知识才能拥有智能。（七十年代中期）
学习期：让机器去学习。从样例中学习、符号主义学习、基于神经网络的连接主义学习。（八十年代）
统计学习：支持向量机、核方法。（九十年代中期）
深度学习：很多层的神经网络。（二十一世纪初）

1.6应用现状

习题

1.1 答：如图1.1。
图1.1

1.2 答：
表1.1中，色泽属性有2个属性值，根蒂和敲声属性分别有3个属性值，所以假设空间中一共有3*4*4+1=49种假设。在不考虑冗余的情况下，最多包含k个合取式来表达假设空间，则一共有这里写图片描述种可能，但是其中包含了很多冗余的情况。

如果考虑冗余情况，这48中假设中（暂时不考虑空集），具体假设有2*3*3=18种，一个泛化属性假设有2*3+2*3+3*3=21种，两个泛化属性有2+3+3=8种，三个泛化属性只有1种。
？？？

1.3 答：如果噪声数据里包含相同属性出现两种不同情况的分类，第一种解决方案是它分为和相近属性的在同一类。如果无法判断相近属性的分类，则可以同时删除相同属性不同分类的数据。

1.4 答：
已知，这里写图片描述

则对所有可能的f按均匀分布对误差求和，得到
这里写图片描述

要想证明NFL定理，只需要证明这里写图片描述是一个常数，与f的选择无关。而它是对所有的f求和，确实与f无关，所以NFL定理得证。

1.5 答：商品搜索推荐、图片搜索。

阅读全文

0 0

第一章 绪论