Machine Learning Foundations 第9节-第12节

来源：互联网发布：淘宝买家黑名单编辑：程序博客网时间：2024/06/05 07:22

機器學習基石 (Machine Learning Foundations) 学习要点小结：
课程来自coursera：
https://class.coursera.org/ntumlone-002/lecture

主要学习了几个不同的model。

第9节 Linear Regression

目标y是实数空间R。
这里写图片描述

常用的错误衡量方法：squared error

这里写图片描述

所以线性回归的目标就是：寻找这样的直线/平面/超平面，使得输入数据的残差最小。

根据前几节课的推导，我们只需保证Ein越小越好，这样就能达到learning的效果。

这里写图片描述

令上式 = 0 ，即可以算出w。
经过计算推导，我们归纳出线性回归算法的步骤：

下面我们将linear regression与linear classification进行对比：
这里写图片描述

通过计算比较可以发现，linear regression的error measure结果实际上是linear classification的error measure结果的上界，因此我们其实是可以用linear regression来做二元分类问题的。

这里写图片描述

当然，最好的选择是使用linear regression计算得到的w作为linear classification（NP-hard）的初始w。

第10节 Logistic Regression

目标y是[0, 1]。
Logistic regression选择的映射函数是S型的sigmoid 函数。

这里写图片描述

使用的错误衡量方法：cross-entropy error

这里写图片描述

因此我们的任务就是：

这里写图片描述

优化的方法使用梯度下降法。

完整的logistic regression algorithm如下：

这里写图片描述

第11节 Linear Models for Classification

目前为止，已经学习了三种线性模型：
（1）linear classification
（2）linear regression
（3）logistic regression

对比如下：

这里写图片描述

线性分类(PLA)、线性回归、逻辑回归的优缺点比较：
（1）PLA
优点：很高效，但依赖数据的线性可分。
缺点：只有在数据线性可分时才可行，否则需要借助POCKET 算法（没有理论保证）。
（2）线性回归
优点：最简单的优化（直接利用矩阵运算工具）。
缺点：y*s 的值较大时，与0/1 error 相差较大(loose bound)。
（3）逻辑回归
优点：比较容易优化（梯度下降）。
缺点：y*s 是非常小的负数时，与0/1 error 相差较大。

实际中，逻辑回归用于分类的效果优于线性回归的方法和POCKET 算法。线性回归得到的结果w 有时作为其他几种算法的初值。

随即梯度下降SGD（Stochastic Gradient Descent）：

传统的梯度下降每一次更新w需要遍历一遍data，当数据量太大或者一次无法遍历全部data时是不可行的。

这里写图片描述

因此，便产生了SGD，每次随机选取一个数据(xn,yn) 来获取“梯度”，以此对w 进行更新。

这里写图片描述

这种方法在统计上的意义是：进行足够多的更新后，平均的随机梯度与平均的真实梯度近似相等。注意：在这种优化方法中，一般设定一个足够大的迭代次数，算法执行这么多的次数时我们就认为已经收敛（防止不收敛的情况）。

η经验上取值在0.1附近会比较合适。

多类别分类问题的两种解决方法：
（1）OVA（One Versus ALL）：任意选择一个类作为+1，其他类都看做-1，在此条件下对原数据进行训练，得到w；经过多轮训练之后，得到多个w。

预测：对于可以明确区分的x，只会有1个相应的分类器识别该x；对于不明确的x，这时我们就需要找到可能性最大的那个分类器。

（2）OVO（One Versus One）：每轮训练时，任取两个类别，一个作为+1，另一个作为-1，其他类别的数据不考虑，这样，同样用二值分类的方法进行训练；目标类有k个时，需要 k*(k-1)/2 轮训练，得到 k*(k-1)/2 个分类器。

预测：对于某个x，用训练得到的 k*(k-1)/2 个分类器分别对其进行预测，哪个类别被预测的次数最多，就把它作为最终结果。即通过“循环赛”的方式来决定哪个“类”是冠军。

可以看出，以上的多元分类是利用二元分类的方法进行的。

第12节 Nonlinear Transformation

这节面对的是线性不可分的数据。

总体应对思路：将线性不可分的数据转换成线性可分的数据。

这里写图片描述

这里的转换可以叫做特征转换（feature transform），特征转换需要付出一定的代价，即更高的模型复杂度。

有一个公式可以推算出转换后需要的参数数量：

这里写图片描述

我们常常从最简单的模型开始学习。

这里写图片描述

hypothesis set是结构化的，多项式次数越高，模型越复杂，对输入的数据拟合的越充分，会使Ein越低，但是Eout会变高，因此在实际工作中，通常采用的方法是：先通过最简单的模型（线性模型）去学习数据，如果E_in 很小了，那么我们就认为得到了很有效的模型；否则，转而进行更高次的假设，一旦获得满意的E_in 就停止学习（不再进行更高次的学习）。

0 0