牛顿法及拟牛顿法

来源：互联网发布：什么是数据的有效性编辑：程序博客网时间：2024/05/20 11:34

1 牛顿法

参考：http://blog.csdn.net/itplus/article/details/21896453

1.1 原始牛顿法

考虑数据是一维的优化问题：

x * = m i n x f (x) (1)

若当前 x 已迭代到 xk ，得到的值是 f(xk) ，在 xk 处做二阶泰勒展开：

φ (x) = f (x k) + f' (x k) (x - x k) + 1 2 f'' (x k) (x - x k) 2 (2)

求的是 xk 附近的最值，所以令 φ′(x)=0 得：

f' (x k) + f'' (x k) (x - x k) = 0 (3)

得到 x 的更新公式：

x = x k - f ' ( x k ) f '' ( x k ) (4)

若数据是多维：

φ (x) = f (x k) + \nabla f (x k) \cdot (x - x k) + 1 2 (x - x k) T \nabla 2 f (x k) (x - x k) (5)

记：梯度g=∇f=⎡⎣⎢⎢⎢⎢⎢⎢⎢∂f∂x1∂f∂x2⋮∂f∂xN⎤⎦⎥⎥⎥⎥⎥⎥⎥海森矩阵H=∇2f=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢∂2f∂x21∂2f∂x2∂x1⋮∂2f∂xN∂x1∂2f∂x1∂x2∂2f∂x22⋮∂2f∂xN∂x2⋯⋯⋱⋯∂2f∂x1∂xN∂2f∂x2∂xN⋯∂2f∂x2N⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥

得到：

g k + H k (x - x k) = 0 (6)

x = x k - H - 1 k \cdot g k (7)

牛顿法的优点是，对于二次性较强的函数，求解速度较快。缺点是，没有步长因子，不能保证函数值稳定地下降。

1.2 阻尼牛顿法

由上面的分析可以看出，每次更新的方向为牛顿方向 −H−1k⋅gk ，如果给它加上步长，就是阻尼牛顿法：

x = x k - λ k H - 1 k \cdot g k (8)

其中， λk 是通过在牛顿方向上做搜索得出的：

λ k = a r g m i n λ f (x k - λ k H - 1 k \cdot g k) (9)

牛顿法是梯度法的发展，利用了二阶偏导的信息，即梯度下降的趋势。但是其要求函数具有连续一、二阶导数，海森矩阵正定。并且计算量很大。

2 拟牛顿法

上面牛顿法的计算量大就大在海森矩阵的计算上，不要提计算，就算海森矩阵是不是正定的都无法保证。所以人们发明了一些方法，搞出来一个矩阵来近似海森矩阵，这就是拟牛顿法。

2.1 拟牛顿条件

二阶泰勒展开式可以写成：

f (x) \approx f (x k + 1) + \nabla f (x k + 1) \cdot (x - x k + 1) + 1 2 (x - x k + 1) T \nabla 2 f (x k + 1) (x - x k + 1) (10)

两边作用梯度算子：

g x \approx g k + 1 + H k + 1 (x - x k + 1) (11)

取 x=xk ，并记 sk=xk+1−xkyk=gk+1−gk：

y k \approx H k + 1 s k (12)

s k \approx H - 1 k + 1 y k (13)

所以，我们找到的近似海森矩阵 Bk+1 或者近似逆矩阵 Dk+1，只要满足 yk=Bk+1sk 或sk=Dk+1yk即可。这就是拟牛顿条件。

2.2 近似算法框架

1、给定初始值 x0 和阈值 ϵ ，令 D0=I ；
2、确定搜索方向 dk=−Dk⋅gk 或 dk=−B−1k⋅gk；
3、确定步长 λk ，令 sk=λkdk, xk+1=xk+sk ；
4、若 ||gk||<ϵ,算法结束；
5、计算 Dk+1 或 Bk+1，k=k+1 转至第2步。

由此可见，算法的关键，就在于怎么构造出Dk+1 或 Bk+1。

2.3 DFP算法

DFP算法通过迭代计算近似海森逆矩阵：

D k + 1 = D k + Δ D k (14)

问题就转化为怎么构造 ΔDk ，我们假设 ΔDk 有如下的形式：

Δ D k = α u u T + β v v T (15)

由(13)式可知：

s k = D k + 1 y k = D k y k + α u u T y k + β v v T y k = D k y k + (α u T y k) u + (β v T y k) v (16)

小括号里面的是实数，假设：

α u T y k = 1 β v T y k = - 1 (17)

即：

α = 1 u T y k β = - 1 v T y k (18)

将(17)代入(16)：

u - v = s k - D k y k (19)

直接令：

u = s k, v = D k y k (20)

则(18)变成：

α = 1 s T k y k β = - 1 ( D k y k ) T y k = - 1 y T k D k y k (21)

Dk 是对称矩阵。

将(20)(21)代入(15)得到：

Δ D k = s k s T k s T k y k - D k y k y T k D k y T k D k y k (22)

再代入(14)得：

D k + 1 = D k + s k s T k s T k y k - D k y k y T k D k y T k D k y k (23)

这样就得到了 Dk+1 的更新公式，代入2.2的算法框架就可以了。

2.4 BFGS算法

上面的推导中用的是 Dk ，如果我们换成是 Bk ,经过一顿推导，我们会得到：

B k + 1 = B k + y k y T k y T k s k - B k s k s T k B k s T k B k s k (24)

但是每次确定搜索方向的时候都要计算 B−1k，更好的做法是用Sherman-Morrison公式：

设 A∈Rn 为非奇异方阵， u,v∈Rn，若1+vTA−1u≠0，则有：
$(A + u v T) - 1 = A - 1 - A - 1 u v T A - 1 1 + v T A - 1 u$

得到：

B - 1 k + 1 = (I - s k y T k y T k s k) B - 1 k (I - y k s T k y T k s k) + s k s T k y T k s k (25)

换成 Dk+1 ：

D k + 1 = (I - s k y T k y T k s k) D k (I - y k s T k y T k s k) + s k s T k y T k s k (26)

代入2.2的算法框架就可以了。BFGS和DFP的不同就在于迭代公式的不同。

2.3 L-BFGS算法

当我们的数据维度很大的时候，存储 Dk 需要很大的空间。为解决这个问题，L-BFGS诞生了。
记 ρk=1yTksk，Vk=I−ρkyksTk，则(26)可以写成：

D k + 1 = V T k D k V k + ρ k s k s T k (27)

经过一顿递推推导我们可以得到通项公式：

D k + 1 = (V T k V T k - 1 \dots V T 1 V T 0) D 0 (V 0 V 1 \dots V k - 1 V k) + (V T k V T k - 1 \dots V T 2 V T 1) ρ 0 s 0 s T 0 (V 1 V 2 \dots V k - 1 V k) + (V T k V T k - 1 \dots V T 3 V T 2) ρ 1 s 1 s T 1 (V 2 V 3 \dots V k - 1 V k) + \dots + (V T k V T k - 1) ρ k - 2 s k - 2 s T k - 2 (V k - 1 V k) + (V T k) ρ k - 1 s k - 1 s T k - 1 (V k) + ρ k s k s T k (28)

上式中，如果我们指定只存储 m 组 sk, yk，后面计算的时候有新值的时候，依次删除开始的值，保证只有 m 组 s, y。取 m^=min(k,m−1) 则得到近似的计算公式：

D k + 1 = (V T k V T k - 1 \dots V T k - m^+ 2 V T k - m^+ 1) D 0 (V k - m^+ 1 V k - m^+ 2 \dots V k - 1 V k) + (V T k V T k - 1 \dots V T k - m^+ 3 V T k - m^+ 2) ρ 0 s 0 s T 0 (V k - m^+ 2 V k - m^+ 3 \dots V k - 1 V k) + \dots + (V T k V T k - 1) ρ k - 2 s k - 2 s T k - 2 (V k - 1 V k) + (V T k) ρ k - 1 s k - 1 s T k - 1 (V k) + ρ k s k s T k (29)

写到这我们知道，只要存储 m 组 s, y 进行近似计算就好了。之后又有人搞出了快速计算搜索方向 dk 的方法（毕竟计算Dk就是要计算搜索方向）：

1、初始化

δ = {0 k - m i f k \leq m i f k > m; L = {k m i f k \leq m i f k > m; q L = g k

2、后向循环

FOR i=L−1,L−2,⋯,1,0 DO
{

j = i + δ

α i = ρ j s T j q i + 1

q i = q i + 1 - α i y j

}

3、前向循环

r 0 = D 0 \cdot q 0

FOR

i=0,1,⋯,L−2,L−1 DO
{

j = i + δ

β j = ρ j y T j r i

r i + 1 = r i - (α i - β i) s j

}

搜索方向： dk=−rk。

阅读全文

0 0