（Unfinished）RNN-循环神经网络之LSTM和GRU-04介绍及推导

来源：互联网发布：淘宝批量删除订单编辑：程序博客网时间：2024/05/19 17:56

（Unfinished）尚未完成

一、说明

关于LSTM的cell结构和一些计算在之前已经介绍了，可以点击这里查看
本篇博客主要涉及一下内容：
- LSTM前向计算说明(之前的博客中LSTM部分实际已经提到过，这里结合图更详细说明)

二、`LSTM`前向计算`step by step`

1、结构`review`

我们知道RNN的结构如下图
- 注意cell中的神经元可以有多个
LSTM就是对cell结构的改进
符号说明
LSTM的关键就是state,就是对应上面的主线数据的传递

2、前向计算`step by step`

(1) 决定抛弃的信息

遗忘门 (forget gate layer)
σ是Sigmoid激励函数，因为它的值域是(0,1)，0代表遗忘所有信息，1代表保留所有信息

遗忘门 forget gate layer

(2) 决定存储的新信息

包括两个部分
- 第一个是输入门 (input gate layer)，对应的是Sigmoid函数
- 第二个是经过tanh激励函数

决定存储的新信息

(3) 更新`state`Ct−1成Ct

ft是经过Sigmoid函数的，所以值域在(0,1)之间，Ct−1点乘0-1之间的数实际就是对Ct−1的一种缩放，（可以认为是记住之前信息的程度）
然后加入进来的新的信息

(4) 最后计算输出

输出门(output gate layer)

计算输出

最后再放一下之前的图, 数据流向可能更清晰

LSTM cell

三、GRU (Gated Recurrent Unit)

1、结构和前向计算

如下图所示
- 相比LSTM，GRU结合了遗忘门和输入门
- 同样也合并了cell state和hidden state （就是LSTM中的c和h）
- GRU比LSTM更加简单

GRU cell结构

Reference

https://colah.github.io/posts/2015-08-Understanding-LSTMs/
https://r2rt.com/written-memories-understanding-deriving-and-extending-the-lstm.html#dealing-with-vanishing-and-exploding-gradients
http://proceedings.mlr.press/v9/glorot10a/glorot10a.pdf

http://lawlite.me/2016/12/20/%E8%AE%BA%E6%96%87%E8%AE%B0%E5%BD%95-UnderstandingTheDifficultyOfTrainingDeepFeedforwardNeuralNetworks/

原文地址： http://lawlite.me/2017/06/21/RNN-%E5%BE%AA%E7%8E%AF%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C%E4%B9%8BLSTM%E5%92%8CGRU-04%E4%BB%8B%E7%BB%8D%E5%8F%8A%E6%8E%A8%E5%AF%BC/

阅读全文

0 0