Jacobian矩阵和Hessian矩阵简析

来源：互联网发布：广州淘宝拍摄基地在哪编辑：程序博客网时间：2024/05/24 05:22

Jacobian矩阵

在向量分析中，雅可比（Jacobian）矩阵是一阶偏导数以一定方式排列成的矩阵，其行列式成为雅可比行列式。

雅可比矩阵

雅可比矩阵的而重要性在于它体现了一个可微方程与给出点的最优线性逼近。因此，雅可比矩阵类似于多元函数的导数。

假设F:Rn→Rm是一个从欧式n维空间转换到欧式m维空间的函数。这个函数由m个实函数组成：y1(x1,…,xn),…,ym(x1,…,xn)。这些函数的偏导数（如果存在）可以组成一个m行n列的矩阵，这就是所谓的雅可比矩阵：

⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y 1 \partial x 1 ⋮ \partial y m \partial x 1 \dots ⋱ \dots \partial y 1 \partial x n ⋮ \partial y m \partial x n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

此矩阵表示为：

JF(x1,…,xn)，或者

∂(y1,…,ym)∂(x1,…,xn).

这个矩阵的第i行是由梯度函数的转置yi(i=1,…,m)表示的。

如果p是Rn中的一点，F在p点可微分，那么在这一点的导数由JF(p)给出（这是求该点导数最简便的方法）。在此情况下，由F(p)描述的线性算子即接近点p的F的最优线性逼近，x逼近于p:

F (x) \approx F (p) + J F (p) \cdot (x - p)

雅可比行列式

如果m=n, 那么F是从n维空间到n维空间的函数, 且它的雅可比矩阵是一个方块矩阵. 于是我们可以取它的行列式, 称为雅可比行列式.

在某个给定点的雅可比行列式提供了在接近该点时的表现的重要信息. 例如, 如果连续可微函数F在p点的雅可比行列式不是零, 那么它在该点附近具有反函数. 这称为反函数定理. 更进一步, 如果p点的雅可比行列式是正数, 则F在p点的取向不变；如果是负数, 则F的取向相反. 而从雅可比行列式的绝对值, 就可以知道函数F在p点的缩放因子；这就是为什么它出现在换元积分法中.

对于取向问题可以这么理解, 例如一个物体在平面上匀速运动, 如果施加一个正方向的力F, 即取向相同, 则加速运动, 类比于速度的导数加速度为正；如果施加一个反方向的力F, 即取向相反, 则减速运动, 类比于速度的导数加速度为负.

Hessian矩阵

在数学中，海森矩阵（Hessian matrix）是一个自变量为向量的实值函数的二阶偏导数组成的方块矩阵，此函数如下：

f (x 1, x 2, \dots, x n)

如果f的所有二阶导数都存在，那么f的Hessian矩阵即：

H (f) i j (x) = D i D j f (x)

其中x=(x1,x2,…,xn)，即H(f)为：

⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial 2 f \partial x 2 1 \partial 2 f \partial x 2 \partial x 1 ⋮ \partial 2 f \partial x n \partial x 1 \partial 2 f \partial x 1 \partial x 2 \partial 2 f \partial x 2 2 ⋮ \partial 2 f \partial x n \partial x 2 \dots \dots ⋱ \dots \partial 2 f \partial x 1 \partial x n \partial 2 f \partial x 2 \partial x n ⋮ \partial 2 f \partial x 2 n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

(也有人把海森定义为以上矩阵的行列式)海森矩阵被应用于牛顿法解决的大规模优化问题。

海森矩阵在牛顿法中的应用

一般来说，牛顿法主要应用在两个方面：

求方程根
最优化问题

1. 求方程根

并不是所有的方程都有求根公式，或者求根公式很复杂，求导求解困难。利用牛顿法，可以迭代求解。原理是泰勒公式，展开到一阶，即f(x)=f(x0)+(x−x0)f′(x0).具体可以参考我另一篇博客：
多元函数的泰勒(Taylor)展开式

求解方程f(x)=0，即f(x0)+(x−x0)f′(x0)=0，求解x=x1=x0−f(x0)/f′(x0)，并不是完全相等，而是近似相等。这里求得的x1并不能让f(x)=0，只能说f(x1)的值比f(x0)更接近f(x)=0。根据这种迭代的思想，可以推出xn+1=xn−f(xn)/f′(xn)，经过若干次迭代后，这个式子必然在f(x∗)=0的时候收敛。整个过程如下图：