机器学习中的线性代数之矩阵求导

来源：互联网发布：百度竞价排名软件编辑：程序博客网时间：2024/06/06 01:46

前面针对机器学习中基础的线性代数知识，我们做了一个常用知识的梳理。接下来针对机器学习公式推导过程中经常用到的矩阵求导，我们做一个详细介绍。

矩阵求导（Matrix Derivative）也称作矩阵微分（Matrix Differential），在机器学习、图像处理、最优化等领域的公式推导中经常用到。

矩阵的微积分本质上是多元变量的微积分问题，只是应用在矩阵空间上而已

根据Y 与 X 的不同类型（实值、向量、矩阵）给出如下表中的表示：

类型标量（Scalar）

y 向量（Vector）

y 矩阵（Matrix）

Y Scalar

∂y∂x

∂Y∂x Vector

∂y∂x

∂y∂x Matrix

∂y∂X

下面我们根据分子的布局（即X的类型）来介绍矩阵的导数求解

0 布局约定（Layout conventions）

事实上，所有求导的法则都可以从最基本的求导规则推导出来。不知你有没发现，不同的文献中，同样的式子求导的结果有时候会不一样，仔细观察会发现刚好相差一个转置，于是我们得先说说求导的两个派别（布局）。

由向量关于向量的求导∂y∂x可以得出两种矛盾的表示：结果表示为n×m 矩阵或m×n 矩阵。也就是把y 表示为列向量x 表示为行向量或者反过来表示的问题。

布局（Layout）：在矩阵求导中有两种布局，分别为分母布局(denominator layout)和分子布局(numerator layout)。这两种不同布局的求导规则是不一样的。
向量 y=⎡⎣⎢⎢⎢⎢⎢y1y2⋮yn⎤⎦⎥⎥⎥⎥⎥，关于标量x 的求导，

在分子布局下，为：

\partial y \partial x = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y 1 \partial x \partial y 2 \partial x ⋮ \partial y n \partial x ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ (1)

而在分母布局下，为：

\partial y \partial x = [\partial y 1 \partial x \partial y 2 \partial x \dots \partial y n \partial x] (2)

通过观察和推导我们可以知道，分子布局和分母布局之间刚好差一个转置，即在分子布局下与原来Y相同，而在分母布局下差一个转置。

对于正切矩阵∂y∂x采用分母布局，即Y⊤，很不符合表达的习惯，所以本文中我们采用的是分子布局。

1 关于标量的导数

对于 X 是标量的情况，是我们最熟悉的一种情况。

1.1 标量关于标量X的求导

这中情况就是我们平时的代数求导，直接就是∂y∂x

1.2 向量关于标量X的求导

向量 y=⎡⎣⎢⎢⎢⎢⎢y1y2⋮yn⎤⎦⎥⎥⎥⎥⎥，关于标量x 的求导就是 y 的每一个元素分别对x求导，可以表示为

\partial y \partial x = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y 1 \partial x \partial y 2 \partial x ⋮ \partial y n \partial x ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ (3)

此时为正切向量，

∂y∂x 为

y 的正切向量，有映射

y :

Rm⟹Rm 。

1.3 矩阵关于标量X的求导

矩阵对标量的求导类似于向量关于标量的求导，也就是矩阵的每个元素分别对标量x求导，矩阵 Y=⎡⎣⎢⎢⎢⎢⎢y11y21⋮yn1y12y22⋮yn2⋯⋯⋱⋯y1ny2n⋮ynn⎤⎦⎥⎥⎥⎥⎥ 对标量x的导数为

\partial Y \partial x = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y 11 \partial x \partial y 21 \partial x ⋮ \partial y n 1 \partial x \partial y 12 \partial x \partial y 22 \partial x ⋮ \partial y n 2 \partial x \dots \dots ⋱ \dots \partial y 1 n \partial x \partial y 2 n \partial x ⋮ \partial y n n \partial x ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ (4)

2 关于向量的导数

2.1标量关于向量 x 的导数

标量y 关于向量 x=⎡⎣⎢⎢⎢⎢x1x2⋮xn⎤⎦⎥⎥⎥⎥ 的求导可以表示为

\partial y \partial x = [\partial y \partial x 1 \partial y \partial x 2 \dots \partial y \partial x n] (5)

此时的向量叫做梯度向量。

∂y∂x 为标量

y 在空间

Rn 的梯度，该空间以

x 为基。

2.2 向量关于向量 x 的导数

向量函数（即函数组成的向量）y=⎡⎣⎢⎢⎢⎢⎢y1y2⋮yn⎤⎦⎥⎥⎥⎥⎥ 关于向量x=⎡⎣⎢⎢⎢⎢x1x2⋮xn⎤⎦⎥⎥⎥⎥ 的导数记作

\partial y \partial x = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y 1 \partial x 1 \partial y 2 \partial x 1 ⋮ \partial y n \partial x 1 \partial y 1 \partial x 2 \partial y 2 \partial x 2 ⋮ \partial y n \partial x 2 \dots \dots ⋱ \dots \partial y 1 \partial x n \partial y 2 \partial x n ⋮ \partial y n \partial x n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ (6)

此时获得的矩阵

∂y∂x 叫做Jacobian 矩阵。

2.3 矩阵关于向量 x 的导数

矩阵 Y=⎡⎣⎢⎢⎢⎢⎢y11y21⋮yn1y12y22⋮yn2⋯⋯⋱⋯y1ny2n⋮ynn⎤⎦⎥⎥⎥⎥⎥ 对向量x=⎡⎣⎢⎢⎢⎢x1x2⋮xn⎤⎦⎥⎥⎥⎥ 的导数是推导中最复杂的一种，我们可以表示为

\partial Y \partial x = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y 11 \partial x 1 \partial y 21 \partial x 1 ⋮ \partial y n 1 \partial x 1 \partial y 1 n \partial x 2 \partial y 22 \partial x 2 ⋮ \partial y n 2 \partial x 2 \dots \dots ⋱ \dots \partial y 1 n \partial x n \partial y 2 n \partial x n ⋮ \partial y n n \partial x n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ (7)

3 关于矩阵的导数

我们一般只考虑标量关于矩阵的导数（因为矩阵对向量和矩阵的导数与前面2.3节的内容一致或相似），即标量y 对矩阵 X 的导数为 ∂y∂X ，此时的导数是梯度矩阵，可以表示为下式：

\partial y \partial X = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y \partial x 11 \partial y \partial x 12 ⋮ \partial y \partial x 1 n \partial y \partial x 21 \partial y \partial x 22 ⋮ \partial y \partial x 2 n \dots \dots ⋱ \dots \partial y \partial x n 1 \partial y \partial x n 2 ⋮ \partial y \partial x n n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ (8)

4 维度分析

当我们对一些复杂的矩阵乘积求偏导的时候，直接求很难直接求出，这时候我们可以通过分析矩阵的维度来得到结果。例如:

考虑以下导数 ∂Au∂x ，其中 A 与x 无关且有 A∈Rm×n， u∈BbbRn×1 ，x∈Rp×1，我们知道结果肯定和∂u∂x 有关，于是先把 A 提出求导式，至于到了哪暂时不知道，接着我们知道 ∂u∂x∈Rp×n，于是 A 只能转置后添加到后面。因此有

\partial A u \partial x = $ \partial u \partial x A ⊤ (9)

再考虑问题 ∂x⊤Ax∂x ，其中 A∈Rn×n， x∈Rn×n ,
为了分析这个问题我们考虑一个更一半的问题

\partial x ⊤ A x \partial x (10)

其中

A∈Rn×n，

x∈BbbRn×n，且

A 与

x 和

y 无关。于是我们利用维度分析，采用非精确的乘积法则，可以将它分为两个部分

\partial ( x ⊤ A ) y \partial x (11)

于是结果与两部分相关，一个是

\partial y \partial x \in R m \times n (12)

另一个是

\partial x ⊤ A \partial x = A \in R m \times n (13)

同样通过维度分析，我们可以得到

\partial ( x ⊤ A ) y \partial x = \partial y \partial x A ⊤ x + A y (14)

因此经过维度的比较我们可以得到

\partial x ⊤ A x \partial x = (A ⊤ + A) x (14)

通过以上两个示例的学习，我们可以知道在求解复杂矩阵的求导问题时，通过维度来判断矩阵的导数形式很简便同时也不容易出错。下图是机器学习中常见的矩阵求导形式，可供参考：

常见矩阵求导形式

5 总结

在本文中，我们针对机器学习推导中的矩阵求导问题做了一个全面的分析，同时结合前文深度学习系列（二）——机器学习中的线性代数知识介绍的机器学习中线性代数的基础知识，我们对线性代数部分做了详细的了解。下一章我们介绍机器学习中涉及到的概率知识。

0 0