【机器学习笔记】Hessian矩阵

来源：互联网发布：网络接入设备集线器编辑：程序博客网时间：2024/06/05 19:12

看牛顿法的时候，遇到的这个问题
原问题是要用牛顿法求对数似然函数 l(θ) 的最大值，也就是似然函数导数的零点，即迭代过程为：

θ : = θ - l ' ( θ ) l '' ( θ )

如果 θ 为向量，就会想，函数对向量求导怎么求？
所以查了一下：

1. 标量对向量求导：

结果是向量

事实上这就是所谓的Gradient，即对于一般标量函数 f(x) , 其中向量为 x=(x1,...,xn)，导数为：

\partial f \partial x = (\partial f \partial x 1, . . . \partial f \partial x n)

也记为： ∇f

结果是矩阵

这个当然也是gradient，当然这准确的说应该叫matrix gradient. 即对于向量值函数 f(x) , 其中 x=(x1,...,xn) ， f=(f1,...,fm) , 导数为：

\partial f \partial x = \partial f T \partial x = [\partial f 1 \partial x, . . . \partial f m \partial x] = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial f 1 \partial x 1 ⋮ \partial f 1 \partial x n \dots ⋱ \dots \partial f m \partial x 1 ⋮ \partial f m \partial x n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

这个矩阵也叫做 Jacobian 矩阵

二阶导数就是Hessian矩阵，形式如下：

H (f) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial 2 f \partial x 2 1 \partial 2 f \partial x 2 \partial x 1 ⋮ \partial 2 f \partial x n \partial x 1 \partial 2 f \partial x 1 \partial x 2 \partial 2 f \partial x 2 2 ⋮ \partial 2 f \partial x n \partial x 2 \dots \dots ⋱ \dots \partial 2 f \partial x 1 \partial x n \partial 2 f \partial x 2 \partial x n ⋮ \partial 2 f \partial x 2 n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

或者可以用更抽象的定义：

H i, j = \partial 2 f ( x ) \partial x i \partial x j

明确了这一点，就能够给出 θ 时的迭代形式了：

θ:=θ−H−1∇θl(θ)

https://www.zhihu.com/question/58312854
http://blog.csdn.net/linolzhang/article/details/60151623

阅读全文

1 0