《神经网络设计》读书笔记——性能优化(三)

来源:互联网 发布:中国的社交网络有哪些 编辑:程序博客网 时间:2024/06/05 13:21

牛顿法

最速下降算法的导数是以一阶泰勒级数展开式为基础的
而牛顿法基于二阶泰勒级数展开式:

  • F(xk+1)=F(xk+Δxk)F(xk)+gTkΔxk+12ΔxTkAkxk

原理

F(x)的二次近似的驻点,求这个二次函数对Δxk的梯度并设它为0,则有:

  • gk+AkΔxk=0

求解Δxk可得

  • Δxk=A1kgk

牛顿法可以定义为

  • Δxk+1=ΔxkA1kgk

特点

牛顿法是用一个二次函数逼近F(x),然后求其驻点。
如果原函数为二次函数,且有强极小点,他就能够实现一步极小化。
如果原函数不是二次函数,无法一步极小化,甚至无法确定是否收敛

总结

牛顿法的收敛速度通常比最速下降法更快
牛顿法可能会收敛到鞍点(局部极小点)
牛顿法可能会震荡和发散

阅读全文
0 0
原创粉丝点击