《机器学习》读书笔记 5 第3章线性模型

来源：互联网发布：studded mac 编辑：程序博客网时间：2024/04/29 01:24

一、基本形式

f(x) = w₁x₁+w₂x₂+…+w_dx_d+b

向量形式：f(x)= w^Tx+b

二、线性回归

线性回归试图学得一个线性模型以尽可能准确地预测实数输出标记。

对离散属性，若属性值间存在“序”关系，可通过连续化将其转为连续值。例如身高的高、矮可转化为1.0、0.0。高度的高、中、低可转化为1.0、0.5、0.0。

若不存在序关系，假定有k个属性值，则通常转化为k维向量，例如瓜类的西瓜、南瓜、黄瓜可转化为｛0,0,1｝、{0,1,0}、{1,0,0}

一元线性回归试图学得 f(x_i) = wx_i+b 使得 f(x_i)≌y_{i。确定w、b的关键在于衡量f(x)和y之间的差别，我们可以试图让均方误差最小化。均方误差有非常好的几何意义，它对应了欧式距离。基于均方误差最小化来进行模型求解的方法称为“最小二乘法”。在线性回归中，最小二乘法就是试图找到一条直线，使所有样本到直线上的欧式距离之和最小。}

_{一元线性回归的通过求导数，可以得出w、b最优解的闭式解。（见公式3.7、3.8）}

_{多元线性回归（样本有多个属性描述）试图学得：}f(x_i) = w^Tx_i+b使得 f(x_i)≌y_{i。也可利用最小二乘法来对w和b进行估计。要用到矩阵运算。}

_{广义线性模型：单调可微函数g(.) 令}y = g^-1(w^Tx+b)

三、对数几率回归

分类任务可以使用广义线性模型，只需要找到一个单调可微函数将分类任务的真实标记y与线性回归模型的预测值联系起来。

考虑二分类任务，其输出标记y属于{0,1},而线性回归模型产生的预测值是实数，将实数z转换为0/1值，最理想的是单位阶跃函数。z>0 y=1，z<0 y=0，z=0 y=0.5。

但单位阶跃函数不连续，不能作为g^-1，单调可微的对数几率函数可作为替代函数。对数几率函数是一种“Sigmoid函数”。

对数几率回归（也被误翻译为逻辑回归）实际是一种分类方法，它是直接对分类可能性进行建模，无需事先假设数据分布；它可以给出类别的近似概率；对数函数是任意阶可导的凸函数。

可通过极大似然法来估计w、b。即令每个样本属于其真实标记的概率越大越好。在求解的过程中，要用到梯度下降法、牛顿法。

四、线性判别分析

线性判别分析LDA，也称Fisher判别分析。

LDA的思想：给定训练样例集，设法将样例投影投影到一条直线，使得同类样例的投影点尽可能近，异类样例的投影点尽可能远。

对新样本分类时，也投影到同一直线，根据投影点位置判断类别。

数学建模：想要同类投影点尽可能近，可以使同类投影点的协方差尽可能小。想要异类样例的投影点尽可能远，可以让类中心点的间距离尽可能大。

LDA要最大化的目标，就是类内散度矩阵、类间散度矩阵的广义瑞利商。其求解过程中，要用到拉格朗日乘子、奇异值分解等。

LDA可从贝叶斯决策理论解释，可以证明当两类数据同先验，满足高斯分布且协方差相等时，LDA可达到最优分类。

可以将LDA推广到多分类任务中。

多分类LDA，可通过投影来减小样本点的维数，且投影过程中使用了类别信息，因此LDA也可作为一种监督降维技术。

五、多分类学习

多分类学习的基本思路是拆解法，即将多分类任务分解为多个二分类任务。

经典的拆分策略有三种：一对一OvO、一对其余OvR、多对多MvM。

一对一：将N个类两两配对，产生N*（N-1）/2个分类任务，每个分类任务有两类数据，一类数据作为正例，一类数据作为反例，训练出一个分类器。测试阶段将新样本提交给所有分类器，得到N*（N-1）/2结果，将被预测得最多的类别作为结果。

一对其余:每次将一类作正例，其余作反例来训练N个分类器。在测试时，若仅有一个分类器预测为正类，则该类为结果。若有多个，则取置信度最高的分类。

一对一比一对其余的存储及测试开销大，但一对其余的训练时间长。预测性能，则取决于具体数据分布，多数情形下两者差不多。

多对多：正类、反类构造必须要有特殊设计，不能随便选取。最常用的技术纠错输出码ECOC。

ECOC工作过程分两步：

编码：对N个类做M次划分，每次划分将一部分类作正类，一部分类作反类。可训练出M个分类器

解码：M个分类器对测试样本预测，预测标记组成一个编码，将这个预测编码与各类的预测编码比较，返回距离最小的类做为预测结果。

类别划分通过编码矩阵指定，有两种形式：二元码（正类、反类）、三元码（正类、反类、停用类）。

ECOC编码对分类器的错误有一定的容忍和修正能力。ECOC编码越长，纠错能力越强，所需训练的分类器越多，计算、存储开销越大。对有限类别，可能的组合数目是有限的，码长超过一定范围没有意义。

对同等长度的编码，任意两类之间距离越远，则纠错能力越强，因此在码长较小时可根据这个原则计算出理论最优编码。

非最优编码在实践中往往已能产生足够好的分类器。并非编码理论性质越好，分类性能就越好。

六、类别不平衡问题

类别不平衡是指分类任务中不同类别的样例数目相差很大的情况。

从线性分类器讨论，通常y>0.5判别为正例，否则为反例。y实际表示了正例的可能性。

几率y/(1-y)，大于1为正例。在类别不平衡时几率需要乘以反例数/正例数。这种策略称为再缩放或再平衡。

现有技术做法有三种：欠采样（丢弃反例），过采样（增加正例），阈值移动。

不能简单丢弃反例或重复正例。过采样代表算法SMOTE（插值产生正例），欠采样代表算法EasyEnsemble（集成学习，反例划分不同集合供不同学习器使用）

再缩放也是代价敏感学习的基础。

阅读全文

0 0

《机器学习》读书笔记 5 第3章 线性模型

《机器学习》读书笔记 5 第3章线性模型