最优化算法(四)

来源:互联网 发布:网络之纵横天下同人 编辑:程序博客网 时间:2024/06/07 01:58

OWL-QN算法

上一篇介绍的L-BFGS只能解平滑问题,但是对于非平滑问题比如机器学习中常见的带L1正则的问题就解决不了,因此微软提出一种基于L-BFGS的优化算法OWL-QN算法,QWL-QN算法最大的特点是可以解非平滑问题,并且收敛速度比L-BFGS要快。

算法思想与伪梯度

算法具体的思想是,把目标函数投影到各个象限上,然后在各个象限上单独求解,并且限制象限,这样比如说L1正则项如果投影并且限制在某个象限上就成了线性函数,是可以求导的,而且损失函数的一阶和l1是相关的,但是二阶不相关,因此近似hessian逆矩阵的求解和lbfgs一样,而对于一阶导数,论文引入了一个概念,叫伪梯度如下

if=+if(x),if(x),0, otherwise  if+if(x)<0  ifif(x)>0 

其中
±if(x)=xil(x)+{Cσ(xi),C, ifxi=0 ifxi0

从上可以看出if(x)+if(x)始终成立,这样保证方向导数最小。

线性搜索

线性搜索需要保证开始的限制条件,就是更新后的不能越过象限,论文中给出了一个backtracking line search方法如下:

f(xk+1)f(xk)γvT(xk+1xk)
这里的vT是伪梯度的负方向,

总结

从上面可以看出,其实owl-qn和lbfgs算法不同有两点,一个是伪梯度代替梯度,第二是线性搜索方法改变,其他的包括求解步骤都不变,下面是论文中给出的具体算法


这里写图片描述

原创粉丝点击