矩阵求导与实例

来源：互联网发布：java随机数求和编辑：程序博客网时间：2024/05/17 06:00

版权声明：本文为博主原创文章，未经博主允许不得转载。

目录(?)[+]

缘由
布局
求导的类别
从简单的例子说起
实例
- SVM的对偶形式转换
- Soft-SVM对偶形式转换
- 线性回归
- logistic回归
参考资料

缘由

机器学习的很多算法表示中都采用了矩阵的形式，对算法的描述分析中就涉及到了对向量、对矩阵的求导。
比如SVM、linear regression的推导等。

布局

矩阵求导有两种布局：

分子布局（numerator layout）
分母布局（denominator layout）

下面用向量y对标量x求导简单说明这两种布局的区别。
我们假定所有的向量都是列向量。

y = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ y 1 y 2 ⋮ y m ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥

在分子布局下：

\partial y \partial x = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y 1 \partial x \partial y 2 \partial x ⋮ \partial y m \partial x ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

在分母布局下：

\partial y \partial x = [\partial y 1 \partial x \partial y 2 \partial x \dots \partial y m \partial x]

在下面的推导中，都将采用分母布局，也就是向量（列）对标量求导的结果都是行向量。（采用这种布局的主要原因是向量对向量的求导就是一个矩阵了）

求导的类别

求导大致分为5类：

向量对标量
标量对向量
向量对向量
矩阵对向量
向量对矩阵

矩阵求导的大致规则如下：
对标量求导结果都要转置，而标量对向量或者矩阵求导的话位置不变。
简单来说，上变下不变。

向量对标量求导：

\partial y \partial x = [\partial y 1 \partial x \partial y 2 \partial x \dots \partial y m \partial x]

标量对向量求导：

\partial y \partial x = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y \partial x 1 \partial y \partial x 2 ⋮ \partial y \partial x m ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

向量对向量求导：

x = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ x 1 x 2 ⋮ x n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥

y = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ y 1 y 2 ⋮ y m ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥

\partial y \partial x = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y 1 \partial x 1 \partial y 1 \partial x 2 ⋮ \partial y 1 \partial x n \partial y 2 \partial x 1 \partial y 2 \partial x 2 ⋮ \partial y 2 \partial x n \dots \dots ⋱ \dots \partial y m \partial x 1 \partial y m \partial x 2 ⋮ \partial y m \partial x n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

矩阵对标量求导：

\partial y \partial x = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y 11 \partial x \partial y 12 \partial x ⋮ \partial y 1 n \partial x \partial y 21 \partial x \partial y 22 \partial x ⋮ \partial y 2 n \partial x \dots \dots ⋱ \dots \partial y m 1 \partial x \partial y m 2 \partial x ⋮ \partial y m n \partial x ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

标量对矩阵求导：

\partial y \partial X = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y \partial x 11 \partial y \partial x 21 ⋮ \partial y \partial x p 1 \partial y \partial x 12 \partial y \partial x 22 ⋮ \partial y \partial x p 2 \dots \dots ⋱ \dots \partial y \partial x 1 q \partial y \partial x 2 q ⋮ \partial y \partial x p q ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

从简单的例子说起

例子1：

y = a T x

其中，y∈R,a∈Rn×1,x∈Rn×1。

属于标量对向量求导，所以有：

\partial y \partial x = a

例子2：

y = A x

其中，y∈Rm×1,A∈Rm×n,x∈Rn×1。

属于向量对向量求导，所以有：

\partial y \partial x = A T

例子3：

y = A u (x)

其中，y∈Rm×1,A∈Rm×n,u∈Rn×1,x∈Rp×1。

属于向量对向量的求导，所以有：

\partial y \partial x = \partial u \partial x A T

例子4：

y = a (x) u (x)

其中，y∈Rm×1,a∈R,u∈Rm×1,x∈Rn×1。

属于向量对向量的求导，所以有：

\partial y \partial x = \partial u \partial x a + \partial a \partial x u T

假如已知：

a (x) u (x) = B x = C x

其中，B∈R1×n,C∈Rm×n
那么，

\partial y \partial x = C T a + B T u T

例子5：

f = x T A y (x)

那么，

\partial f \partial x = A y + \partial y \partial x A T x

其中，x∈Rm×1,y∈Rn×1,A∈Rm×n,f∈R。

上面的式子，当y(x)=x时，也就是m=n时。

f \partial f \partial x = x T A x = (A + A T) x

例子6：

f = a T x x T b, a, b, x \in R m \times 1

则

\partial f \partial x = a (x T b) + b (a T x) = (a b T + b a T) x

实例

SVM的对偶形式转换

SVM的原形式（primary form）是：

min w, b s . t . 1 2 w T w y n (w T x n + b) \geq 1

SVM的对偶形式（dual form）是：

min w, b max α \geq 0 max α \geq 0 min w, b 1 2 w T w + \sum n = 1 N α n [1 - y n (w T x n + b)] 1 2 w T w + \sum n = 1 N α n [1 - y n (w T x n + b)]

上升分别对w,b求导后，得到

w \sum n = 1 N α n y n = \sum n = 1 N α n y n x n = 0

代入原式中，有

min α 1 2 \sum n = 1 N s . t . \sum n = 1 N α n y n α n \sum m = 1 N α n α m y n y m x m T x n - \sum n = 1 N α n = 0 \geq 0

这个对偶问题，可以用相应的quadprog包求解。其中，∑Nn=1∑Nm=1αnαmynymxmTxn是矩阵αTQα。ynymxmTxn是矩阵中m行n列的元素。这个元素再乘以αnαm。
同时，这个也是wTw的内积。可以理解为把w拆开多项，每一项分别做内积然后相加，就像多次项展开公式一样。

Soft-SVM对偶形式转换

SVM的原形式（primary form）是：

min w, b, ε s . t . 1 2 w T w + C \sum n = 1 N ε n y n (w T x n + b) \geq 1 - ε n ε n \geq 0

对偶形式是：

min α 1 2 \sum n = 1 N s . t . \sum n = 1 N α n y n 0 \leq α n \sum m = 1 N α n α m y n y m x m T x n - \sum n = 1 N α n = 0 \leq C

线性回归

原问题是：

E i n (w) = 1 N \sum n = 1 N (w T x - y) 2 = 1 N ∥ X W - Y ∥ 2

当最佳值存在时：

\nabla E i n (w) = 2 N X T (X W - Y)

所以有:

W W = (X T X) - 1 X T Y = X † Y

logistic回归

首先，定义需要的函数：

θ (s) h (x) = e s 1 + e s = 1 1 + e - s = θ (w T x)

接着，根据最大似然，并且利用

1−h(x)=h(−x)的性质，最大化点出现的概率：

max \prod θ (y n w T x n) min \sum n = 1 N l n (1 + e x p (- y n w T x n))

上式对w的倒数为0，所以有：

s . t . min \sum n = 1 N l n (1 + e x p (- y n w T x n)) \sum n = 1 N θ (- y n w T x n) (- y n x n) = 0

下面，可以利用GD或者SGD求解。

GD:

\nabla E i n (w t) w t + 1 = 1 N \sum n = 1 N θ (- y n w T x n) (- y n x n) = w t - η \nabla E i n (w t)

SGD:

w t + 1 = w t - η θ (- y n w T x n) (- y n x n)

参考资料

闲话矩阵求导

0 0