学习理论之模型选择——Andrew Ng机器学习笔记（八）

来源：互联网发布：云盘系统源码编辑：程序博客网时间：2024/06/06 12:49

内容提要

这篇博客主要的内容有：
1. 模型选择
2. 贝叶斯统计和规则化（Bayesian statistics and regularization）

最为核心的就是模型的选择，虽然没有那么多复杂的公式，但是，他提供了更加宏观的指导，而且很多时候是必不可少的。now let’s begin

模型选择

假设我们训练不同的模型去解决一个学习问题，比如我们有一个多项式回归模型hθ(x)=g(θ0+θ1x+θ2x2+...+θkxk)，我么就像确定这个k的取值是不是1,2,...,10，或者我们程序可以自动的计算k的取值，即选择不同的模型去解决问题并且可以在欠拟合和过拟合之间的到很好的平衡。

我们先假设一个模型的有限几何M={M1,M2,...,Md}，然后在这集合中选择我们想要的模型。比如上面的那个例子中，Mi指的就是第i个模型k的取值。那么我们怎么在在这个集合之中进行选择呢？下面我们介绍交叉验证方法。

交叉验证

解决上面模型选择问题的一个简单想法就是我用70%的数据对每一模型进行训练，用30%的数据进行训练误差的计算，然后我们在比较各个模型的训练误差，就可以选择出训练误差比较小的模型了。如果对这些误差不用请参看（学习理论之经验风险最小化——Andrew Ng机器学习笔记（七））这篇博客。

如果我们的训练数据非常容易的就可以得到，那么上面这个方法将是一个不错的方法，因为它只需要遍历训练模型一次就可以得到一个比较好的模型。但是训练数据往往不是非常容易就可以得到，之前我就采集过一次实验数据，那的的确是一次非常痛苦的过程。所以我们就想高效的利用我们来之不易的训练数据，有人就提出来K重交叉验证（k-fold cross validation）算法，算法过程如下：

将训练集S分成k份，分别记为S1,S2,...,Sk

对于每一个Mi，都执行如下过程：
for j=1,2,...,k
在S1,S2,...Sj−1,Sj+1,...Sk上训练模型Mi，得到假设函数hij。
利用Sj计算hij的训练误差，然后求平均值。

选择出训练误差最小的模型Mi，然后在整个训练集上训练整个模型，最后我们就得到了对于这个训练集最好的模型

这个算法主要的思想就是：对于每一个模型，我们一次用S1,S2,...Sk去验证，用出去验证的剩余部分进行训练，然后平均训练误差，就只这个模型的训练误差，最后选择训练误差最下的模型。再重新训练这个模型，就得到最终我们想要的模型。如果k等于训练集S的大小（k=|S|）,这时有一个专门的名字叫留一交叉验证（leave-one-out cross validation）。

特征选择

特征选择 ( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS ) ，或属性选择( Attribute Selection ) ，是指从全部特征中选取一个特征子集，使构造出来的模型更好。

为什么要特征选择

先举个例子，之前我们举过邮件分类的例子，整个邮件中的单词是否出现构成的0,1向量作为其特征向量。但是，当其中出现“deep leaning”等单词对判断判断是否为垃圾邮件作用不大，反而出现“buy”等单词对判断作用大，所以我们就行将其中作用不大的这些单词剔除掉。剔除的过程就是特征选择的过程。下面我们再来看看更加严格的说明

在机器学习的实际应用中，特征数量往往较多，其中可能存在不相关的特征，特征之间也可能存在相互依赖，容易导致如下的后果：
1. 特征个数越多，分析特征、训练模型所需的时间就越长
2. 特征个数越多，容易引起“维度灾难”，模型也会越复杂，其推广能力会下降

特征选择能剔除不相关(irrelevant)或亢余(redundant )的特征，从而达到减少特征个数，提高模型精确度，减少运行时间的目的。另一方面，选取出真正相关的特征简化了模型，使研究人员易于理解数据产生的过程。

下面我们介绍特征选择的算法

前向搜索和后向搜索

先来看前向搜索，他的核心思想就是尝试特征向量所有组合，从中选择出训练误差最小的特征向量的自向量，原始特征向量的维度为n,具体描述如下：
1. 初始化特征向量F为空（F=ϕ）
2. 循环直到到达阈值或者循环n趟
{
fori=1,...,n;{ifi∉Fi,thenFi=F∪{i}，然后利用交叉验证算法或者留一交叉验证算法计算Fi的训练误差 }

令F等于训练误差最小的Fi
}
3. 输出最终训练误差最小的特征向量的子集

实际上这个算法就是在遍历这样一个排列树（关于算法的书上有排列树的概念）：

并且以广度优先的方式进行遍历。不同就是，每一层只保留一个训练误差最小的节点。

与前向搜索思想相反的搜索算法叫后向搜索，他的核心思想是：先将F设置为{1,2,..,n}，然后每次尝试删除一个特征，并计算训练误差或者评价，直到达到阈值或者为空，然后选择最佳的F。

前向搜索和后向搜索属于封装特征选择（wrapper model feature selection），Andrew Ng老师还解释为什么称为“Wraper”原因，说这算个就像“wrapper”一样套在你的学习算法外面，在执行的时候需要不断重复的调用你的学习算法。前向搜索和后向搜索都有两层循环，并且最坏情况下循环计数都到达n，所以时间复杂度都为O(n2)

滤特征选择算法（Filter feature selection method）

有时候前向和后向搜索的复杂度是无法接收的，比如在邮件分类中，特征向量的维数有时候会到达5000，甚至更高。这时的复杂度我们接收不了。所以就有了滤特征选择算法，它是一种启发式搜索算法，其中我们会定义个评价函数S(i),用来评价第i个特征与标签y之间的影响关系。最后选择出S(i)得分高的特征。这个算法中两个重要的点就是这个S(i)怎么定义，k到底取多大。