斯坦福机器学习公开课--整理笔记(…

来源:互联网 发布:mac自带解压软件 编辑:程序博客网 时间:2024/05/24 05:59
第四课,内容如下:

一、牛顿方法:
在上一课中,提到了用梯度上升(下降)的方法来拟合逻辑回归模型,这里介绍了一种比梯度上升更快的方法,即牛顿方法来进行拟合。

牛顿方法的原理是:
对于一个函数f(x),若要求f(x)= 0时的x的取值,则任取一个初始值x0,那么新的迭代值x1=f(x0)/f'(x0),即这一点的函数值除以导数值。这实际上是求得f(x0)处的切线,求出的新迭代值x1是切线与X轴的交点,如下图
斯坦福机器学习公开课--整理笔记(3)
以此类推,得到牛顿方法的迭代公式:Xt+1=Xt-f(Xt)/f'(Xt)。

将此思想应用到逻辑回归中,我们要求得使似然性函数L(θ)最大的θ值,那么也就是求得L'(θ)等于0这个点的θ值(最大值说明是峰值,峰值处对应导数为0)。
因此可得迭代公式:
牛顿方法的迭代速度非常快,被称为二次收敛,假设在一次迭代之前,与正确解的距离是0.01,那么迭代一次后,误差的量级就将变为0.001,再迭代一次,量级就变为了0.0000001

以上是对于θ只是一行数据,对于一般化的牛顿方法,θ是一个向量,因此对应的牛顿迭代公式如下:
斯坦福机器学习公开课--整理笔记(3)
其中斯坦福机器学习公开课--整理笔记(3)斯坦福机器学习公开课--整理笔记(3)对于斯坦福机器学习公开课--整理笔记(3)的偏导数
H是一个n*n黑塞矩阵(Hessian matrix),n为特征量的个数,具体的,对于H的每一项,有斯坦福机器学习公开课--整理笔记(3)
此方法缺点在于,每次迭代均需要重新计算H的值,特征数量较大时,会影响速度。

另外吐槽一下AndrewNg真爱玩,提了一个问题说之前用的牛顿方法是求最大值,那么求最小值要怎么修改算法,于是把视频暂停,冥思苦想半天,觉得应该是一样呀,毕竟都是导数为0,于是继续往下看,他就笑呵呵的告诉大家了,其实是没变化斯坦福机器学习公开课--整理笔记(3)

在之前的内容,可以概括为以下两点:
1、对于y的值在整个实数域的,可以使用线性回归
2、对于y的值在0,1取值的,使用逻辑回归。

二、指数分布函数族
在之前的内容我们使用了高斯分布(线性回归)和伯努利分布(逻辑回归)两种模型,事实上这两者均属于指数分布函数族,由不同的参数组合而形成。

指数函数族一般形式为:
斯坦福机器学习公开课--整理笔记(3)
其中,这里写图片描述被称为自然参数(naturalparameter)或者典范参数(canonicalparameter); 
T(y)是充分统计量(sufficientstatistic)(对于我们考虑的分布来说,通常T(y)=y);这里写图片描述 
是日志分配函数(log partition function),这里写图片描述是一个规范化常数,使得分布的和为1. 
改变T,a,b,可以得到如高斯分布、伯努利分布等不同的函数族。
T,a,b不变,通过改变参数这里写图片描述得到同一函数族下的不同的分布.

高斯和伯努利均可以表示为这一形式,具体过程详见视频,这里就不提了。

三、广义线性模型(GLM)
当讨论完指数函数族之后,很自然地就可以得到广义线性模型的概念。
广义线性模型的意义在于,当你有一个新的待机器学习的样例,你只需要决定一件事:假设它服从于哪种指数函数族,然后就可以根据一个固定的流程,得出它的回归模型,比如对于一个样本的输出值y值,仅有0,1两项,那么你可以假设它服从于伯努利分布,然后根据广义线性模型的一个固定流程,就可以得出该样本的模型——那就是逻辑回归模型。同样,如果假设y服从于高斯分布,那么就能得到最小二乘模型
为了导出GLM,作三个假设: 
(1)这里写图片描述 
(2)给定x,我们的目标是预测T(y)的预期值.在大部分例子中,我们有T(y)=y,因此意味着我们通过学习得到的假设满足这里写图片描述(这个假设对logistic回归和线性回归都成立) 
(3)自然参数和输入变量是线性相关的,也就是说这里写图片描述(如果自然参数是向量,则这里写图片描述
而我们要做的决策,就是在第一步决定使y服从于哪一种指数函数族,之后的模型就可以自动得到。
而有了这个模型之后,我们要做的就是拟合模型的参数θ,即根据输入的样本集(x,y),得到一组合适的参数θ,使得似然性函数L(θ)最大即可。
以视频最后的softmax为例,我有一个新的机器学习问题,它有k种输出,于是我选择采用多项式分布来作为我的指数分布族,之后的每一步在选择了多项式分布这个决定被做出之后,都能自动的得到。与最小二乘法和logistic回归类似,softmax的L(θ)可以写成下面的形式:
斯坦福机器学习公开课--整理笔记(3)
然后可以用梯度上升、牛顿方法等方法求出θ
阅读全文
0 0
原创粉丝点击