漫步最优化八——梯度信息

来源:互联网 发布:空中铁匠 知乎 编辑:程序博客网 时间:2024/05/20 22:41






便


——

在许多优化方法中,需要目标函数的梯度信息,这个信息由f(x)n个变量的一阶与二阶导组成的。

如果f(x)C1,即f(x)有连续的一阶偏导,f(x)的梯度定义为:

g(x)=[fx1 fx2  fxn]T=f(x)

其中

=[x1 x2  xn]T

如果f(x)C2,即f(x)有连续的二阶偏导,f(x)的海森矩阵定义为:

H(x)=gT={Tf(x)}

因此海森矩阵可以写为:

H(x)=2fx212fx2x12fxnx12fx1x22fx222fxnx22fx1xn2fx2xn2fx2n

对函数f(x)C2

2fxixj=2fxjxi

这是因为求导是线性运算,由此可得H(x)n×n 对称方阵。

x=xk处的梯度与海森矩阵用g(xk),H(xk)表示,或者用简化的符号gk,Hk表示。有时候在不至于混淆的前提下,g(x),H(x)简化成g,H

梯度与海森矩阵简化了优化过程,但是在某些应用中求解他们非常耗时且代价比较大,或者f(x)无法求偏导,对于这种应用,最好用不需要求梯度的方法。

梯度方法,即基于梯度信息的方法可能只需要g(x)或者g(x),H(\textbf{x})都需要,对于后者,可能需要求解矩阵H(x) 的逆,这会带来数值精确性问题且很耗时,一般我们会避免这种方法。