梯度下降学习率的优化

来源:互联网 发布:淘宝权在哪里直播现在 编辑:程序博客网 时间:2024/06/04 22:37

一. 问题描述

令目标函数为f(x),当前点为xk,当前搜索方向为dk,我们把学习率α看做变量,不妨设:

h(α)=f(xk+αdk),a>0

现在问题变成求h(α)的最小值,假设h(α)可导,则有:
h(α)=f(xk+αdk)(xk+αdk)dk

二. 学习率函数h(α)的分析

由导数的性质知道,局部最小值处满足h(α)=0
α=0代入,得:

h(0)=f(xk)xkdk

不妨取dk为负梯度,即dk=f(xk)xk,则有:
h(0)=(f(xk)xk)20

如果能够找到足够大的α,使得h(α)>0,则必存在某个值α0,使得h(α0)=0α0即为要寻找的学习率
1. 二分线性搜索
2. 回溯线性搜索
3. Armijo准则
f(xk+αdk)f(xk)+c1αf(xk)xkdk,0<c1<1

4. 二项插值法
f(x)=f(a)f(0)af(0)a2x2+f(0)x+f(0)可得h(α)的近似函数为:
hq(α)=h(α0)h(0)α0h(0)α20α2+h(0)α+h(0)

可得,最优值为:
α=h(0)α202(h(0)α0+h(0)h(α0))

如有错误请指正

0 0
原创粉丝点击