Machine Learning Foundations 第9节-第12节

来源:互联网 发布:淘宝买家黑名单 编辑:程序博客网 时间:2024/06/05 07:22

機器學習基石 (Machine Learning Foundations) 学习要点小结:
课程来自coursera:
https://class.coursera.org/ntumlone-002/lecture

主要学习了几个不同的model。

第9节 Linear Regression

目标y是实数空间R。
这里写图片描述

常用的错误衡量方法:squared error

这里写图片描述

所以线性回归的目标就是:寻找这样的直线/平面/超平面,使得输入数据的残差最小。

根据前几节课的推导,我们只需保证Ein越小越好,这样就能达到learning的效果。

这里写图片描述
这里写图片描述
令上式 = 0 ,即可以算出w。
经过计算推导,我们归纳出线性回归算法的步骤:
这里写图片描述

下面我们将linear regression与linear classification进行对比:
这里写图片描述

通过计算比较可以发现,linear regression的error measure结果实际上是linear classification的error measure结果的上界,因此我们其实是可以用linear regression来做二元分类问题的。

这里写图片描述

当然,最好的选择是使用linear regression计算得到的w作为linear classification(NP-hard)的初始w。

第10节 Logistic Regression

目标y是[0, 1]。
Logistic regression选择的映射函数是S型的sigmoid 函数。

这里写图片描述

这里写图片描述

使用的错误衡量方法:cross-entropy error

这里写图片描述

因此我们的任务就是:

这里写图片描述

优化的方法使用梯度下降法。

完整的logistic regression algorithm如下:

这里写图片描述

第11节 Linear Models for Classification

目前为止,已经学习了三种线性模型:
(1)linear classification
(2)linear regression
(3)logistic regression

对比如下:

这里写图片描述

这里写图片描述

这里写图片描述

线性分类(PLA)、线性回归、逻辑回归的优缺点比较:
(1)PLA
优点:很高效,但依赖数据的线性可分。
缺点:只有在数据线性可分时才可行,否则需要借助POCKET 算法(没有理论保证)。
(2)线性回归
优点:最简单的优化(直接利用矩阵运算工具)。
缺点:y*s 的值较大时,与0/1 error 相差较大(loose bound)。
(3)逻辑回归
优点:比较容易优化(梯度下降)。
缺点:y*s 是非常小的负数时,与0/1 error 相差较大。

实际中,逻辑回归用于分类的效果优于线性回归的方法和POCKET 算法。线性回归得到的结果w 有时作为其他几种算法的初值。

随即梯度下降SGD(Stochastic Gradient Descent):

传统的梯度下降每一次更新w需要遍历一遍data,当数据量太大或者一次无法遍历全部data时是不可行的。

这里写图片描述

因此,便产生了SGD,每次随机选取一个数据(xn,yn) 来获取“梯度”,以此对w 进行更新。

这里写图片描述

这种方法在统计上的意义是:进行足够多的更新后,平均的随机梯度与平均的真实梯度近似相等。注意:在这种优化方法中,一般设定一个足够大的迭代次数,算法执行这么多的次数时我们就认为已经收敛(防止不收敛的情况)。

η经验上取值在0.1附近会比较合适。

多类别分类问题的两种解决方法:
(1)OVA(One Versus ALL):任意选择一个类作为+1,其他类都看做-1,在此条件下对原数据进行训练,得到w;经过多轮训练之后,得到多个w。

预测:对于可以明确区分的x,只会有1个相应的分类器识别该x;对于不明确的x,这时我们就需要找到可能性最大的那个分类器。

(2)OVO(One Versus One):每轮训练时,任取两个类别,一个作为+1,另一个作为-1,其他类别的数据不考虑,这样,同样用二值分类的方法进行训练;目标类有k个时,需要 k*(k-1)/2 轮训练,得到 k*(k-1)/2 个分类器。

预测:对于某个x,用训练得到的 k*(k-1)/2 个分类器分别对其进行预测,哪个类别被预测的次数最多,就把它作为最终结果。即通过“循环赛”的方式来决定哪个“类”是冠军。

可以看出,以上的多元分类是利用二元分类的方法进行的。

第12节 Nonlinear Transformation

这节面对的是线性不可分的数据。

总体应对思路:将线性不可分的数据转换成线性可分的数据。

这里写图片描述

这里的转换可以叫做特征转换(feature transform),特征转换需要付出一定的代价,即更高的模型复杂度。

有一个公式可以推算出转换后需要的参数数量:

这里写图片描述

我们常常从最简单的模型开始学习。

这里写图片描述

hypothesis set是结构化的,多项式次数越高,模型越复杂,对输入的数据拟合的越充分,会使Ein越低,但是Eout会变高,因此在实际工作中,通常采用的方法是:先通过最简单的模型(线性模型)去学习数据,如果E_in 很小了,那么我们就认为得到了很有效的模型;否则,转而进行更高次的假设,一旦获得满意的E_in 就停止学习(不再进行更高次的学习)。

0 0
原创粉丝点击