周志华机器学习读后总结 第六、七章

来源:互联网 发布:抗韩中年人淘宝店网址 编辑:程序博客网 时间:2024/06/08 10:30

支持向量机

什么是支持向量机?

综合书中介绍可总结:支持向量机是一个训练样本集中划分超平面的算法,而划分超平面能把样本集中不同类别的样本分开,也就是说支持向量机是一个区分样本类别的模型。支持向量机的一个重要性质是训练完成后,大部分的训练样本都不需要保留,最终模型仅与支持向量有关。

划分超平面的线性描述方程为W^T+b=0,样本空间中距离超平面最近的几个训练样本点被称为支持向量,两个异类支持向量到超平面的距离之和为间隔,而我们欲找到最大间隔的划分超平面,即找到合适的约束参数Wb使划分超平面的间隔最大。

 

对偶问题

我们可以通过支持向量机的基本型用现成的优化计算包求解Wb,但此方法不够高效。我们可以通过拉格朗日乘子法得到其高效的对偶问题,通过对偶问题方程来得到Wb,而对偶问题方程多出了a变量且满足KKT条件。

SMO算法求解对偶方程:选取一对需更新的变量aiajà固定aiaj以外的参数,求解方程获得更新后的aiaj。刚开始选取的aiaj所对应样本之间的间隔最大。

 

核函数

现实任务中,原始样本空间内并不一定存在一个能正确划分两类样本的超平面;但如果原始空间是有限维,即属性数有限,那么一定存在一个高维特征空间使样本可分。我们可将样本从原始空间映射到一个更高维的特征空间,使得样本在这个特征空间内线性可分。而核函数可以让我们不必直接去计算高维甚至无穷维特征空间中的內积。

任何一个核函数都隐式地定义了一个RKHS的特征空间,只要一个对称函数所对应的核矩阵半正定,它就能作为核函数使用。核函数选择是支持向量机的最大变数,常用的核函数有线性核、多项式核、高斯核、拉普拉斯核等。

 

软间隔与正则化

现实任务中很难确定合适的核函数使得训练样本在特征空间中线性可分,即使找到了某个核函数使训练集在特征空间中线性可分,也很难断定这个貌似线性可分的结果不是由于过拟合造成的。因此我们可以允许支持向量机在一些样本上出错,即引入软间隔概念,软间隔允许某些样本不满足约束。

最大化间隔同时,不满足约束的样本应尽可能少,于是我们可写出优化目标函数,其中有0/1损失函数,我们通常用一些替代损失函数来替代0/1损失函数例如hinge损失、指数损失和对率损失。

 

贝叶斯分类器

贝叶斯决策论

贝叶斯判定准则:为最小化总体风险,只需在每个样本上选择那个能使条件风险最小的类别标记。

贝叶斯分类器的分类原理是通过某对象的先验概率利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。但现实任务中后验概率通常难以获得因此机器学习所要实现的是基于有限的训练样本集尽可能准确地估计出后验概率;主要有两种策略:判别式模型和生成式模型。对生成式模型来说基于贝叶斯定理可将对后验概率的求转化为对类先验概率和类条件概率的求,类先验概率易得,主要就是类条件概率了。

 

极大似然估计

估计类条件概率的一种常用策略是先假定其具有某种确定的概率分布形式,再基于训练样本对概率分布的参数进行估计。参数估计的两种解决方案:频率主义学派:参数是客观存在的固定值。贝叶斯学派:参数是未观察到的随机变量。而极大似然估计源自频率主义学派,极大似然估计是试图在参数所有可能取值中,找到一个能使数据出现的可能性最大的值。

 

朴素贝叶斯分类器

贝叶斯公式难以从有限的训练样本直接估计类条件概率,因此朴素贝叶斯分类器采用了属性条件独立性假设,即假设每个属性独立地对分类结果发生影响;基于属性条件独立性假设我们可以重写贝叶斯公式。书中用西瓜数据集3.0训练了一个朴素贝叶斯分类器。

为了避免其他属性携带的信息被训练集中未出现的属性值抹去,在估计概率值时通常要进行平滑,我们常用拉普拉斯修正。

 

半朴素贝叶斯分类器

朴素贝叶斯分类器的属性条件独立性假设在现实任务中往往很难成立,于是人们对属性条件独立性假设进行一定程度的放松,由此产生了半朴素贝叶斯分类器的学习方法。半朴素贝叶斯分类器适当考虑一部分属性间的相互依赖信息;独依赖估计是半朴素贝叶斯分类器常用的一种策略,所谓独依赖就是假设每个属性在类别之外最多仅依赖于一个其他属性。半朴素贝叶斯分类器的关键就是如何确定每个属性的父属性,常用方法有SPODE/TAN/NB

 

贝叶斯网

贝叶斯网亦称信念网它借助有向无环图来刻画属性之间的依赖关系并使用条件概率表来描述属性的联合概率分布一个贝叶斯网由结构和参数两部分构成

贝叶斯网结构有效地表达了属性间的条件独立性,贝叶斯网中三个变量之间的典型依赖关系是同父结构、V型结构、顺序结构。为了分析有向图中变量间的条件独立性,可使用有向分离先把有向图转变为道德图,令父结点相连的过程称为道德化。

阅读全文
0 0
原创粉丝点击