随机梯度算法

来源：互联网发布：基于单片机led旋转显示编辑：程序博客网时间：2024/05/17 02:28

随机梯度下降–Stochastic Gradient Descent | 丕子 http://www.zhizhihu.com/html/y2012/3731.html

在求损失度最小值时，我们一般用到导数为0时求相应参数，但有时会导致很高的计算复杂度。这时，就要乃至随机梯度下降算法了，是用来简化求最小值的计算的。先给W一个初始值，然后朝梯度方向下降，直到不能下降为止，此时即可得到对应的极小值，但注意得到的是局部最小值，有时要对初始值进行不断修正。

但这样，每iteration一次就得用所有数据求一次导数，代价太大，那么每一步只随机抽几个数据点来算一个梯度如何呢？当然可以！这被称之为Stochastic Gradient Descent，非常高效（随机梯度下降算法）。

记得在ML中的目标函数通常是损失+罚（ $\ell(h)+\lambda f(h)$ ）的形式。例如ridge regression就是平方误差+ $\ell_2$ 罚，lasso是平方误差+ $\ell_1$ 罚，SVM是hinge loss+ $\ell_2$ 罚。最小化这个目标函数可以等价于在 $f(h)\le\delta$ 的限制下最小化 $\ell(h)$ 。 $\lambda$ 和 $\delta$ 是一一对应的关系。实际上 $f(h)\le\delta$ 就是定义了一个凸子空间，例如使用 $\ell_2$ 罚时就是一个半径为 $\delta$ 的球。所以，Online Gradient Descent可以online的解这一类目标函数，只是对于不同的罚选择不同的投影子。

下面是理论分析。记投影前的 $\tilde h_{t+1} = h_t-\eta_t\nabla\ell_t(h_t)$ ，以及offline最优解 $h^*=\arg\min_{h\in\mathcal{H}}\sum_{t=1}^T\ell_t(h)$ 。因为 $\mathcal{H}$ 是凸的且 $h^*$ 在其中，所以对 $\tilde h_{t+1}$ 投影只会减少其与 $h^*$ 的距离，既 $\|h_{t+1}-h^*\|\le\|\tilde h_{t+1}-h^*\|$ 。记 $\nabla_t=\nabla \ell_t(h_t)$ ，注意到

$\displaystyle \|\tilde h_{t+1}-h^*\|^2=\|h_t-h^*\|^2+\eta_t^2\|\nabla_t\|^2-2\eta_t\langle\nabla_t,h_t-h^*\rangle.$

由于 $\ell_t$ 是凸的，所以有

$\displaystyle \ell_t(h_t)-\ell_t(h^*)\le \langle\nabla_t,h_t-h^*\rangle \le \frac{1}{2\eta_t}\big(\|h_t-h^*\|^2 - \|h_{t+1}-h^*\|^2\big) + \frac{\eta_t}{2}\|\nabla_t\|^2.$

取固定的 $\eta_t=\eta$ ，对 $t$ 进行累加就有 $R(T)\le \frac{1}{2\eta}\|w_1-w^*\|^2+\frac{\eta}{2}\sum_{t=1}^T\|\nabla_t\|^2$ 。记 $\mathcal{H}$ 的直径为 $D$ ，且对所有 $t$ 有 $\|\nabla_t\|\le L$ 成立（既Lipschitz常数为 $L$ ），再取 $\eta=\frac{D}{L\sqrt{T}}$ ，那么

$\displaystyle R(T)\le LD\sqrt{T}.$

这个bound可以通过设置变动的学习率 $\eta_t$ 加强。