RNN

来源：互联网发布：网络热词2015 编辑：程序博客网时间：2024/05/17 03:27

一个小的例子mini_char_rnn
我们主要看代码中的backward部分：

dh = np.dot(Why.T, dy) + dhnextdhraw = (1 - hs[t] * hs[t]) * dhdhnext = np.dot(Whh.T, dhraw)

首先定义loss function：
E = ∑nt=0softmax−cross−ntropy−loss(yt,labelst)
这里n是batchsize，y为输出，损失函数为softmax交叉熵，RNN的BP和传统的BP的不同在于ht是和ht−1相关的，所以我们关心的是∂y∂h而∂E∂y和传统的BP并无两样,单隐层RNN的forward如下：
ht=f(Wxhxt+Whhht−1+bh)
yt=htWhy+by
所以在backward中
∂E∂ht=∂E∂yt∂yt∂ht+∂E∂yt−1∂yt−1∂ht−1
后面一项正是代码中的dhnext，我们可以把∑nt=0yt展开来看：
yt=htWhy+by=f(Wxhxt+Whhht−1+bh)
yt−1=ht−1Why+by=f(Wxhxt−1+Whhht−2+bh)
yt−2=ht−2Why+by=f(Wxhxt−2+Whhht−3+bh)
yt−3=ht−3Why+by=f(Wxhxt−3+Whhht−4+bh)
yt−4=ht−4Why+by=f(Wxhxt−4+Whhht−5+bh)
……
我们可以看到
ht出现在yt中(因为t已经是最后一项了)
ht−1出现在yt−1和yt中
ht−2出现在yt−2和yt−1中
ht−3出现在yt−3和yt−2中
正是因为RNN在时间轴上是关联的，所以前一时刻的输出和当前时刻的输入是相关联的，这也反映到了RNN的BP中，就是当前时刻的梯度是和前一时刻的梯度相关的

0 0