漫步最优化八——梯度信息

来源：互联网发布：空中铁匠知乎编辑：程序博客网时间：2024/05/20 22:41

不见你会想你，

想随时献殷勤，希望你像蜜桃般甜美；

想阅读更多书，期待你我能赌书泼茶。

我想我们已互相知道对方的心意，

即便相隔万里也能感受到远方心中的牵挂。

希望我们互相是对的人，

一直彼此宠爱。

——畅宝宝的傻逼哥哥

在许多优化方法中，需要目标函数的梯度信息，这个信息由f(x)对n个变量的一阶与二阶导组成的。

如果f(x)∈C1，即f(x)有连续的一阶偏导，f(x)的梯度定义为：

g(x) = [\partial f \partial x 1 \partial f \partial x 2 \dots \partial f \partial x n] T = \nabla f (x)

其中

\nabla = [\partial \partial x 1 \partial \partial x 2 \dots \partial \partial x n] T

如果f(x)∈C2，即f(x)有连续的二阶偏导，f(x)的海森矩阵定义为：

H(x) = \nabla g T = \nabla {\nabla T f (x)}

因此海森矩阵可以写为：

H(x) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial 2 f \partial x 2 1 \partial 2 f \partial x 2 \partial x 1 ⋮ \partial 2 f \partial x n \partial x 1 \partial 2 f \partial x 1 \partial x 2 \partial 2 f \partial x 2 2 ⋮ \partial 2 f \partial x n \partial x 2 \dots \dots \dots \partial 2 f \partial x 1 \partial x n \partial 2 f \partial x 2 \partial x n ⋮ \partial 2 f \partial x 2 n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

对函数f(x)∈C2

\partial 2 f \partial x i \partial x j = \partial 2 f \partial x j \partial x i

这是因为求导是线性运算，由此可得H(x)是n×n 对称方阵。

点x=xk处的梯度与海森矩阵用g(xk),H(xk)表示，或者用简化的符号gk,Hk表示。有时候在不至于混淆的前提下，g(x),H(x)简化成g,H。

梯度与海森矩阵简化了优化过程，但是在某些应用中求解他们非常耗时且代价比较大，或者f(x)无法求偏导，对于这种应用，最好用不需要求梯度的方法。

梯度方法，即基于梯度信息的方法可能只需要g(x)或者g(x),H(\textbf{x})都需要，对于后者，可能需要求解矩阵H(x) 的逆，这会带来数值精确性问题且很耗时，一般我们会避免这种方法。

阅读全文

0 0