Matrix calculus(矩阵微积分)(第二部分,布局约定)

来源:互联网 发布:淘宝发布宝贝被下架 编辑:程序博客网 时间:2024/06/11 00:13

原文地址:
https://en.wikipedia.org/wiki/Matrix_calculus#Other_matrix_derivatives

其他矩阵求导(存在争议)

有三种矩阵的导数我们目前没有看到,他们是向量对矩阵求导,矩阵对向量求导,矩阵对矩阵求导。他们没有统一的符号,也没有统一的应用。对于和向量相关的矩阵两种矩阵导数,可以被看作是一个只有一列的矩阵和另一个矩阵做相互运算。鉴于这个原因,本节我们只考虑如何写出一个矩阵对另一个矩阵求导的导数结果。
假设F(X)是一个矩阵函数,它表示从n×m矩阵到p×q矩阵的映射表示为:F:M(n×m)M(p×q)。那么F(X)就是一个M(n×m)M(p×q)的元素,M(n×m)M(p×q)是一个四阶张量(在这里mn代表M(n×m)的双重空集),简而言之,一个m×n的每一个实体都是一个p×q的矩阵。

FX=FX1,1FXm,1FX1,nFXm,n

在这里FXij是一个p×q的矩阵。还有就是矩阵被转置了,成了mn列。
Y在矩阵M(n,m)中沿着F的前推是:
dF(Y)=tr(FXY)

对于给定的一个可微分的n×m的矩阵X=(xi,j)的矩阵方程ϕ,
ϕ(X)X=ϕx1,1xm,1ϕx1,nϕxm,n

对于给定的一个可微分的n×m的矩阵Xm×n的矩阵方程F=(fs,t),

F(X)X=f1,1Xfm,1Xf1,nXfm,nX

雅各布矩阵:
DF(X)=vecF(X)(vecX)

布局约定

本节我们使用矩阵微积分来讨论一些关于在众多领域都官方应用的不同符号约定的异同点。可以大致分出两大类的约定,一些作者喜欢把这两种约定混合使用,就像是我们下面讨论的。下面的章节我们将要把这两种对立的形式分开讨论。
最基本的问题是向量对向量求导的表示,也就是yx,但是就是这个简单的表示形式也有两种对立的写法。如果分子y的大小是m,并且分母x的大小是n,那么求导的结果可能是m×n或者是n×m,也就是说y使用列向量表示,x使用行向量表示,或者反过来,x使用列向量表示,y使用行向量表示,这两种形式将会导致三种结果:

  • 分子布局:yxT,分子是列向量,分母是行向量。这也被称为雅各布方程
  • 分母布局:yTx,分母是列向量,分子是行向量。这也被称为海森方程。一些作者把这里的形式称为梯度,为了可以方便和它的转置也就是雅各布方程区分(但是,“梯度”这个词更多的时候是表示yx,并且忽略向量的布局)
  • 第三中可能就是坚持将导数形式写成yx,(也就是说,即导数是相对于x的转置)并遵循分子布局。这使得有可能声称矩阵是根据分子和分母来布局的。实际上,这将产生与分子布局相同的结果。

当处理梯度yx,或者是其相反的情况yx,不失一般性,我们将做以下处理:

  • 如果为yx选择分子布局,我们将把梯度yx写成行向量,yx写成列向量
  • 如果为yx选择分母布局,我们将把梯度yx写成列向量,yx写成行向量
  • 如果是第三种可能,则参考分子布局

    并不是所有的数学课本或者是论文都通篇采用同一种布局,因为在不同的上下文环境中可以使用不同的布局。比如对于yx,在求解梯度的时候我们采用分母布局(结果写成列向量),但是在求解向量和向量的导数的时候我们使用分母布局。
    类似的,当处理标量对矩阵求导yX或者是矩阵对标量求导Yx的结果,如果使用分子布局则布局结构参考YXT,如果是分母布局则参考YTX。然而在实际应用中,Yx的结果更多参考YT,而且它非常少见,因为他的形式不好,且找不到对应的标量方程,因此有下面的布局:

  • 分子布局:Yx参考YyX参考XT.

  • 混合布局:Yx参考YyX参考X.
  • 使用符号YyX,结果同分子布局

在下面的公式中,我们将分别处理不同的五种可能的组合方式yx,yx,yx,yX,Yx.
我们还处理涉及中间向量或矩阵的标量与标量导数的情况。(例如,如果根据标量变量定义多维参数曲线,并且然后相对于参数化曲线的标量取曲线的标量函数的导数,则会出现这种情况。)对于每个我们给出分子布局和分母布局结果,除了分母布局很少出现的情况。在涉及矩阵的情况下,我们给分子布局和混合布局结果。如上所述,矢量和矩阵分母写入转置符号的情况相当于分子没有转置写入分母的情况。
请记住,不同的作者使用分子和分母布局的不同组合,以适应不同类型的求导,并且不能保证作者将始终如一地使用分子或分母布局。将以下公式与源代码中引用的公式进行匹配,以确定用于该特定类型求导的布局,但要小心,不要假设其他类型的求导必须遵循同一种布局。
当使用聚集体(向量或矩阵)分母的求导工具来查找聚集体的最大值或最小值时,应该记住,使用分子布局会产生相对于总计转置的结果。例如,在尝试使用矩阵演算找到多元正态分布的最大似然估计值的情况下,如果该区域是k×1 列向量,则使用分子布局的结果将以1×k行向量的形式出现。因此,结果应该在最后转换,或者应该使用分母布局(或混合布局)。

标量y 向量y(大小m) 矩阵Y(大小m×n) 符号 类型 符号 类型 符号 类型 标量x yx 标量 yx (分子布局)大小m的列向量; (分母布局)大小m的列向量 Yx (分子布局)大小m×n的矩阵 向量x(大小n) yx (分子布局)大小n的行向量; (分母布局)大小n的行向量 yx (分子布局)大小m×n的矩阵; (分母布局)大小n×m的矩阵 Yx 矩阵Y(大小p×q) yX (分子布局)大小q×p的矩阵; (分母布局)大小p×q的矩阵 yX YX

在分子和分母布局切换的时候需要对结果进行转置操作。

分子布局:

使用分子布局,我们将得到:

yx=[yx1yx2yxn]

yx=y1xy2xymx

yx=y1x1y2x1ymx1y1x2y2x2ymx2y1xny2xnymxn

yX=yx11yx12yx1qyx21yx22yx2qyxp1yxp2yxpq

下面的定义只在分子布局下适用:
Yx=y11xy21xym1xy12xy22xym2xy1nxy2nxymnx

dX=dx11dx21dxm1dx12dx22dxm2dx1ndx2ndxmn

分母布局:

使用分子布局,我们将得到:

yx=yx1yx2yxn

yx=[y1xy2xymx]

yx=y1x1y2x2y1xny2x1y2x2y2xnymx1y2x2ymxn

yX=yx11yx21yxq1yx12yx22yxq2yx1pyx2pyxqp

原创粉丝点击