长短时记忆网络(LSTM)的训练

来源：互联网发布：如何清除mac桌面图标编辑：程序博客网时间：2024/05/16 13:49

长短时记忆网络的训练

熟悉我们这个系列文章的同学都清楚，训练部分往往比前向计算部分复杂多了。LSTM的前向计算都这么复杂，那么，可想而知，它的训练算法一定是非常非常复杂的。现在只有做几次深呼吸，再一头扎进公式海洋吧。

LSTM训练算法框架

LSTM的训练算法仍然是反向传播算法，对于这个算法，我们已经非常熟悉了。主要有下面三个步骤：

前向计算每个神经元的输出值，对于LSTM来说，即ft、it、ct、ot、ht五个向量的值。计算方法已经在上一节中描述过了。
反向计算每个神经元的误差项δ值。与循环神经网络一样，LSTM误差项的反向传播也是包括两个方向：一个是沿时间的反向传播，即从当前t时刻开始，计算每个时刻的误差项；一个是将误差项向上一层传播。
根据相应的误差项，计算每个权重的梯度。

关于公式和符号的说明

首先，我们对推导中用到的一些公式、符号做一下必要的说明。

接下来的推导中，我们设定gate的激活函数为sigmoid函数，输出的激活函数为tanh函数。他们的导数分别为：

σ (z) σ' (z) tanh (z) tanh' (z) = y = 1 1 + e - z = y (1 - y) = y = e z - e - z e z + e - z = 1 - y 2 (8) (9) (10) (11)

从上面可以看出，sigmoid和tanh函数的导数都是原函数的函数。这样，我们一旦计算原函数的值，就可以用它来计算出导数的值。

LSTM需要学习的参数共有8组，分别是：遗忘门的权重矩阵Wf和偏置项bf、输入门的权重矩阵Wi和偏置项bi、输出门的权重矩阵Wo和偏置项bo，以及计算单元状态的权重矩阵Wc和偏置项bc。因为权重矩阵的两部分在反向传播中使用不同的公式，因此在后续的推导中，权重矩阵Wf、Wi、Wc、Wo都将被写为分开的两个矩阵：Wfh、Wfx、Wih、Wix、Woh、Wox、Wch、Wcx。

我们解释一下按元素乘∘符号。当∘作用于两个向量时，运算如下：

a \circ b = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ a 1 a 2 a 3 . . . a n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ \circ ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ b 1 b 2 b 3 . . . b n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ a 1 b 1 a 2 b 2 a 3 b 3 . . . a n b n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥

当∘作用于一个向量和一个矩阵时，运算如下：

a \circ X = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ a 1 a 2 a 3 . . . a n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ \circ ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ x 11 x 21 x 31 x n 1 x 12 x 22 x 32 x n 2 x 13 x 23 x 33 . . . x n 3 . . . . . . . . . . . . x 1 n x 2 n x 3 n x n n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ a 1 x 11 a 2 x 21 a 3 x 31 a n x n 1 a 1 x 12 a 2 x 22 a 3 x 32 a n x n 2 a 1 x 13 a 2 x 23 a 3 x 33 . . . a n x n 3 . . . . . . . . . . . . a 1 x 1 n a 2 x 2 n a 3 x 3 n a n x n n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ (12) (13)

当∘作用于两个矩阵时，两个矩阵对应位置的元素相乘。按元素乘可以在某些情况下简化矩阵和向量运算。例如，当一个对角矩阵右乘一个矩阵时，相当于用对角矩阵的对角线组成的向量按元素乘那个矩阵：

d i a g [a] X = a \circ X

当一个行向量右乘一个对角矩阵时，相当于这个行向量按元素乘那个矩阵对角线组成的向量：

a T d i a g [b] = a \circ b

上面这两点，在我们后续推导中会多次用到。

在t时刻，LSTM的输出值为ht。我们定义t时刻的误差项δt为：

δ t = d e f \partial E \partial h t

注意，和前面几篇文章不同，我们这里假设误差项是损失函数对输出值的导数，而不是对加权输入netlt的导数。因为LSTM有四个加权输入，分别对应ft、it、ct、ot，我们希望往上一层传递一个误差项而不是四个。但我们仍然需要定义出这四个加权输入，以及他们对应的误差项。

n e t f, t n e t i, t n e t c ~, t n e t o, t δ f, t δ i, t δ c ~, t δ o, t = W f [h t - 1, x t] + b f = W f h h t - 1 + W f x x t + b f = W i [h t - 1, x t] + b i = W i h h t - 1 + W i x x t + b i = W c [h t - 1, x t] + b c = W c h h t - 1 + W c x x t + b c = W o [h t - 1, x t] + b o = W o h h t - 1 + W o x x t + b o = d e f \partial E \partial n e t f , t = d e f \partial E \partial n e t i , t = d e f \partial E \partial n e t c ~ , t = d e f \partial E \partial n e t o , t (14) (15) (16) (17) (18) (19) (20) (21) (22) (23) (24) (25)

误差项沿时间的反向传递

沿时间反向传递误差项，就是要计算出t-1时刻的误差项δt−1。

δ T t - 1 = \partial E \partial h t - 1 = \partial E \partial h t \partial h t \partial h t - 1 = δ T t \partial h t \partial h t - 1 (26) (27) (28)

我们知道，∂ht∂ht−1是一个Jacobian矩阵。如果隐藏层h的维度是N的话，那么它就是一个N×N矩阵。为了求出它，我们列出ht的计算公式，即前面的式6和式4：

h t c t = o t \circ tanh (c t) = f t \circ c t - 1 + i t \circ c ~ t (29) (30)

显然，ot、ft、it、c~t都是ht−1的函数，那么，利用全导数公式可得：

δ T t \partial h t \partial h t - 1 = δ T t \partial h t \partial o t \partial o t \partial n e t o , t \partial n e t o , t \partial h t - 1 + δ T t \partial h t \partial c t \partial c t \partial f t \partial f t \partial n e t f , t \partial n e t f , t \partial h t - 1 + δ T t \partial h t \partial c t \partial c t \partial i t \partial i t \partial n e t i , t \partial n e t i , t \partial h t - 1 + δ T t \partial h t \partial c t \partial c t \partial c ~ t \partial c ~ t \partial n e t c ~ , t \partial n e t c ~ , t \partial h t - 1 = δ T o, t \partial n e t o , t \partial h t - 1 + δ T f, t \partial n e t f , t \partial h t - 1 + δ T i, t \partial n e t i , t \partial h t - 1 + δ T c ~, t \partial n e t c ~ , t \partial h t - 1 (式 7) (31) (32)

下面，我们要把式7中的每个偏导数都求出来。根据式6，我们可以求出：

\partial h t \partial o t \partial h t \partial c t = d i a g [tanh (c t)] = d i a g [o t \circ (1 - tanh (c t) 2)] (33) (34)

根据式4，我们可以求出：

\partial c t \partial f t \partial c t \partial i t \partial c t \partial c ~ t = d i a g [c t - 1] = d i a g [c ~ t] = d i a g [i t] (35) (36) (37)

因为：

o t n e t o, t f t n e t f, t i t n e t i, t c ~ t n e t c ~, t = σ (n e t o, t) = W o h h t - 1 + W o x x t + b o = σ (n e t f, t) = W f h h t - 1 + W f x x t + b f = σ (n e t i, t) = W i h h t - 1 + W i x x t + b i = tanh (n e t c ~, t) = W c h h t - 1 + W c x x t + b c (38) (39) (40) (41) (42) (43) (44) (45) (46) (47) (48)

我们很容易得出：

\partial o t \partial n e t o , t \partial n e t o , t \partial h t - 1 \partial f t \partial n e t f , t \partial n e t f , t \partial h t - 1 \partial i t \partial n e t i , t \partial n e t i , t \partial h t - 1 \partial c ~ t \partial n e t c ~ , t \partial n e t c ~ , t \partial h t - 1 = d i a g [o t \circ (1 - o t)] = W o h = d i a g [f t \circ (1 - f t)] = W f h = d i a g [i t \circ (1 - i t)] = W i h = d i a g [1 - c ~ 2 t] = W c h (49) (50) (51) (52) (53) (54) (55) (56)

将上述偏导数带入到式7，我们得到：

δ t - 1 = δ T o, t \partial n e t o , t \partial h t - 1 + δ T f, t \partial n e t f , t \partial h t - 1 + δ T i, t \partial n e t i , t \partial h t - 1 + δ T c ~, t \partial n e t c ~ , t \partial h t - 1 = δ T o, t W o h + δ T f, t W f h + δ T i, t W i h + δ T c ~, t W c h (式 8) (57) (58)

根据δo,t、δf,t、δi,t、δc~,t的定义，可知：

δ T o, t δ T f, t δ T i, t δ T c ~, t = δ T t \circ tanh (c t) \circ o t \circ (1 - o t) (式 9) = δ T t \circ o t \circ (1 - tanh (c t) 2) \circ c t - 1 \circ f t \circ (1 - f t) (式 10) = δ T t \circ o t \circ (1 - tanh (c t) 2) \circ c ~ t \circ i t \circ (1 - i t) (式 11) = δ T t \circ o t \circ (1 - tanh (c t) 2) \circ i t \circ (1 - c ~ 2) (式 12) (59) (60) (61) (62)

式8到式12就是将误差沿时间反向传播一个时刻的公式。有了它，我们可以写出将误差项向前传递到任意k时刻的公式：

δ T k = \prod j = k t - 1 δ T o, j W o h + δ T f, j W f h + δ T i, j W i h + δ T c ~, j W c h (式 13)

将误差项传递到上一层

我们假设当前为第l层，定义l-1层的误差项是误差函数对l-1层加权输入的导数，即：

δ l - 1 t = d e f \partial E n e t l - 1 t

本次LSTM的输入xt由下面的公式计算：

x l t = f l - 1 (n e t l - 1 t)

上式中，fl−1表示第l-1层的激活函数。

因为netlf,t、netli,t、netlc~,t、netlo,t都是xt的函数，xt又是netl−1t的函数，因此，要求出E对netl−1t的导数，就需要使用全导数公式：

\partial E \partial n e t l - 1 t = \partial E \partial n e t l f , t \partial n e t l f , t \partial x l t \partial x l t \partial n e t l - 1 t + \partial E \partial n e t l i , t \partial n e t l i , t \partial x l t \partial x l t \partial n e t l - 1 t + \partial E \partial n e t l c ~ , t \partial n e t l c ~ , t \partial x l t \partial x l t \partial n e t l - 1 t + \partial E \partial n e t l o , t \partial n e t l o , t \partial x l t \partial x l t \partial n e t l - 1 t = δ T f, t W f x \circ f' (n e t l - 1 t) + δ T i, t W i x \circ f' (n e t l - 1 t) + δ T c ~, t W c x \circ f' (n e t l - 1 t) + δ T o, t W o x \circ f' (n e t l - 1 t) = (δ T f, t W f x + δ T i, t W i x + δ T c ~, t W c x + δ T o, t W o x) \circ f' (n e t l - 1 t) (式 14) (63) (64) (65)

式14就是将误差传递到上一层的公式。

权重梯度的计算

对于Wfh、Wih、Wch、Woh的权重梯度，我们知道它的梯度是各个时刻梯度之和（证明过程请参考文章零基础入门深度学习(5) - 循环神经网络），我们首先求出它们在t时刻的梯度，然后再求出他们最终的梯度。

我们已经求得了误差项δo,t、δf,t、δi,t、δc~,t，很容易求出t时刻的Woh、的Wih、的Wfh、的Wch：

\partial E \partial W o h , t \partial E \partial W f h , t \partial E \partial W i h , t \partial E \partial W c h , t = \partial E \partial n e t o , t \partial n e t o , t \partial W o h , t = δ o, t h T t - 1 = \partial E \partial n e t f , t \partial n e t f , t \partial W f h , t = δ f, t h T t - 1 = \partial E \partial n e t i , t \partial n e t i , t \partial W i h , t = δ i, t h T t - 1 = \partial E \partial n e t c ~ , t \partial n e t c ~ , t \partial W c h , t = δ c ~, t h T t - 1 (66) (67) (68) (69) (70) (71) (72) (73) (74) (75) (76)

将各个时刻的梯度加在一起，就能得到最终的梯度：

\partial E \partial W o h \partial E \partial W f h \partial E \partial W i h \partial E \partial W c h = \sum j = 1 t δ o, j h T j - 1 = \sum j = 1 t δ f, j h T j - 1 = \sum j = 1 t δ i, j h T j - 1 = \sum j = 1 t δ c ~, j h T j - 1 (77) (78) (79) (80)

对于偏置项bf、bi、bc、bo的梯度，也是将各个时刻的梯度加在一起。下面是各个时刻的偏置项梯度：

\partial E \partial b o , t \partial E \partial b f , t \partial E \partial b i , t \partial E \partial b c , t = \partial E \partial n e t o , t \partial n e t o , t \partial b o , t = δ o, t = \partial E \partial n e t f , t \partial n e t f , t \partial b f , t = δ f, t = \partial E \partial n e t i , t \partial n e t i , t \partial b i , t = δ i, t = \partial E \partial n e t c ~ , t \partial n e t c ~ , t \partial b c , t = δ c ~, t (81) (82) (83) (84) (85) (86) (87) (88) (89) (90) (91)

下面是最终的偏置项梯度，即将各个时刻的偏置项梯度加在一起：

\partial E \partial b o \partial E \partial b i \partial E \partial b f \partial E \partial b c = \sum j = 1 t δ o, j = \sum j = 1 t δ i, j = \sum j = 1 t δ f, j = \sum j = 1 t δ c ~, j (92) (93) (94) (95)

对于Wfx、Wix、Wcx、Wox的权重梯度，只需要根据相应的误差项直接计算即可：

\partial E \partial W o x \partial E \partial W f x \partial E \partial W i x \partial E \partial W c x = \partial E \partial n e t o , t \partial n e t o , t \partial W o x = δ o, t x T t = \partial E \partial n e t f , t \partial n e t f , t \partial W f x = δ f, t x T t = \partial E \partial n e t i , t \partial n e t i , t \partial W i x = δ i, t x T t = \partial E \partial n e t c ~ , t \partial n e t c ~ , t \partial W c x = δ c ~, t x T t (96) (97) (98) (99) (100) (101) (102) (103) (104) (105) (106)

以上就是LSTM的训练算法的全部公式。因为这里面存在很多重复的模式，仔细看看，会发觉并不是太复杂。

当然，LSTM存在着相当多的变体，读者可以在互联网上找到很多资料。因为大家已经熟悉了基本LSTM的算法，因此理解这些变体比较容易，因此本文就不再赘述了。

阅读全文

0 0