(Unfinished)RNN-循环神经网络之LSTM和GRU-04介绍及推导
来源:互联网 发布:淘宝批量删除订单 编辑:程序博客网 时间:2024/05/19 17:56
(Unfinished)尚未完成
一、说明
- 关于
LSTM
的cell
结构和一些计算在之前已经介绍了,可以点击这里查看 - 本篇博客主要涉及一下内容:
LSTM
前向计算说明(之前的博客中LSTM部分实际已经提到过,这里结合图更详细说明)
二、LSTM
前向计算step by step
1、结构review
- 我们知道
RNN
的结构如下图- 注意
cell
中的神经元可以有多个
- 注意
LSTM
就是对cell
结构的改进- 符号说明
LSTM
的关键就是state
,就是对应上面的主线数据的传递
2、前向计算step by step
(1) 决定抛弃的信息
- 遗忘门 (
forget gate layer
) σ 是Sigmoid
激励函数,因为它的值域是(0,1)
,0
代表遗忘所有信息,1
代表保留所有信息
(2) 决定存储的新信息
- 包括两个部分
- 第一个是输入门 (
input gate layer
),对应的是Sigmoid
函数 - 第二个是经过
tanh
激励函数
- 第一个是输入门 (
(3) 更新state
Ct−1 成Ct
ft 是经过Sigmoid
函数的,所以值域在(0,1)
之间,Ct−1 点乘0-1
之间的数实际就是对Ct−1 的一种缩放,(可以认为是记住之前信息的程度)- 然后加入进来的新的信息
(4) 最后计算输出
- 输出门(
output gate layer
)
- 最后再放一下之前的图, 数据流向可能更清晰
三、GRU (Gated Recurrent Unit)
1、结构和前向计算
- 如下图所示
- 相比
LSTM
,GRU
结合了遗忘门和输入门 - 同样也合并了
cell state
和hidden state
(就是LSTM
中的c
和h
) GRU
比LSTM
更加简单
- 相比
Reference
- https://colah.github.io/posts/2015-08-Understanding-LSTMs/
- https://r2rt.com/written-memories-understanding-deriving-and-extending-the-lstm.html#dealing-with-vanishing-and-exploding-gradients
- http://proceedings.mlr.press/v9/glorot10a/glorot10a.pdf
- http://lawlite.me/2016/12/20/%E8%AE%BA%E6%96%87%E8%AE%B0%E5%BD%95-UnderstandingTheDifficultyOfTrainingDeepFeedforwardNeuralNetworks/
原文地址: http://lawlite.me/2017/06/21/RNN-%E5%BE%AA%E7%8E%AF%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C%E4%B9%8BLSTM%E5%92%8CGRU-04%E4%BB%8B%E7%BB%8D%E5%8F%8A%E6%8E%A8%E5%AF%BC/
阅读全文
0 0
- (Unfinished)RNN-循环神经网络之LSTM和GRU-04介绍及推导
- 循环神经网络RNN以及LSTM的推导和实现
- 循环神经网络教程 第四部分 用Python 和 Theano实现GRU/LSTM RNN
- 循环神经网络教程4-用Python和Theano实现GRU/LSTM RNN, Part 4 – Implementing a GRU/LSTM RNN with Python and Theano
- theano实现RNN(GRU和LSTM)
- RNN(循环神经网络)和LSTM(时间递归神经网络)
- LSTM神经网络 和 GRU神经网络
- 循环神经网络(RNN)与LSTM
- 循环神经网络——实现LSTM/GRU
- 循环神经网络——双向LSTM&GRU
- 循环神经网络(一般RNN)推导
- RNN&LSTM&GRU
- RNN,LSTM与GRU
- 循环神经网络教程第四部分-用Python和Theano实现GRU/LSTM循环神经网络
- 循环神经网络(RNN)介绍
- RNN和LSTM原理推导
- 循环和递归神经网络 (RNN) 与 长短时记忆 (LSTM)
- 【深度学习】RNN(循环神经网络)之LSTM(长短时记忆)
- EventBus简单使用
- 高晓松三问阿里巴巴合伙人_为什么来 为什么留 为什么战
- HTTP协议(包含与HTTPS的区别) 知识笔记
- python3 linux 下获取本地网卡ip
- Java常用API(六)Date 日期类介绍及使用
- (Unfinished)RNN-循环神经网络之LSTM和GRU-04介绍及推导
- [RK3288][Android6.0] Mali GPU基本知识
- POST与GET
- adb的使用!!!!!!!!
- 正态分布(Normal distribution)又名高斯分布(Gaussian distribution)
- 启动TOMCAT报错 java.util.zip.ZipException: invalid LOC header (bad signature)
- ES6 知识碎片1
- SVN版本update冲突详解
- 《分布式服务架构原理设计与实战》第8章敏捷开发笔记