快速梯度下降法-SAGA

来源:互联网 发布:蚌埠市人社局新域名 编辑:程序博客网 时间:2024/06/05 18:04

SGD

对于目标函数:

这里写图片描述

目标函数优化步骤:

1.随机旋转索引j,即函数fj(x);

2.更新参数x,采用sgd公式为:

这里写图片描述

SAGA(STOCHASTIC VARIANCE REDUCTION METHODS)

目标函数优化步骤:

1.随机旋转索引j,即函数fj(x);

2.对于上述目标函数,采用SAGA参数更新公式为:

这里写图片描述

ϕk+1j=xk.

SAGA代码:https://github.com/adefazio/point-saga

相比SGD,SAGA有完全不同的收敛性.对于强凸的问题,SAGA可以线性收敛,即计算量为O(log(1/k)),而在现有的随机方法中,例如SGD需要计算量为O(1/k),都未达到线性收敛.

这里写图片描述

图中Incremetal Gradient为SAGA方法.由图可知,在训练过程中,采用SAGA梯度下降法可以使模型快速收敛.

原创粉丝点击