对LSTM中M（Memory）的再思考

来源：互联网发布：android7源码编辑：程序博客网时间：2024/06/08 00:22

注：转载需得到作者同意！

知乎地址：https://zhuanlan.zhihu.com/p/28263453

本文动机

最近手上有一个分类任务，由于处理的数据是实时的序列，便考虑使用Long Short-Term Memory(LSTM)网络实现。在现在的深度学习有监督学习的判别模型中，有两大强有力的武器：

1.处理空域数据的卷积神经网络（Convolutional Neural Network，CNN）

2.处理时域数据的循环神经网络（Recurrent Neural Networks，RNN）

RNN由于其网络特性，将上一时刻的隐藏层输出与此时刻的数据一起作为此时刻的输入，使得历史时刻对于当前时刻的输出具有影响。而LSTM正是RNN中的变体，其独特的“门”设计解决了RNN中梯度消失/爆炸问题。

那么，LSTM中是否真的存在memory？若存在，存在的形式是怎样的？这样的形式会带来怎样的优势？又存在着怎样的问题？本文试图探讨这些问题，但由于作者（研究生一枚）水平有限，希望对这个问题同样有兴趣的朋友（无论是大牛或是小白）一起探讨，如有作者表述错误或是理解错误的地方，也请多多指正，谢谢~

先行知识

这里贴出一些书/教程/博客作为本文的先行知识，一些基础的入门知识本文不再赘述。（毕竟自己写也可能不会有这些大大清晰的说）

1. Long Short-term Memory, Neural Computation 9(8):1735-1780,1997 第一篇当然放上LSTM开山论文，1997年发表于Neural Computation。论文一共32页，写的很学术严谨，个人觉得论文中图画的有点错综复杂，倒不如后面几篇研究人员画的直白易懂。

2. Long short-term memory wikipedia对于LSTM的解读，详略得当，重点一目了然。

3. YJango的循环神经网络——介绍来自 YJango 大大的超智能体 · GitBook 一书中对于RNN的讲解。

YJango的循环神经网络——实现LSTM 这是LSTM的讲解，详细易懂，非常推荐。

书中附有实例代码，每句都有注释，理论+实践的方式能快速理解LSTM的工作原理。

另外YJango从自然生物角度出发探讨人工智能的思路也令人眼前一亮。

4. 相关系数_百度百科这是本文所要探讨的部分数学知识。

...... （写着写着再补充）

RNN中的Memory

首先我们看一张RNN的网络结构图：

我们很容易能写出：

$h_t=F(W_{xh}(t)*x_t+W_{hh}(t-1)*h_{t-1}+b )$

$y_t = F(W_{oh}(t)*h_t+b_{ot})$

注：1. $F$ 为激活函数（用于非线性） 2.暂认为 $t-1$ 时刻为序列开始。

我们能够发现，在 $t$ 时刻的输出 $y_t$ 与两个量有关，即：

当前时刻的输入数据 $x_t$ 和上一时刻的隐藏层状态 $h_{t-1}$ 。

而在经过一轮迭代我们不难发现， $t-1$ 时刻的隐藏层 $h_{t-1}$ 是由 $x_{t-1}$ 与 $init$ 决定（本例中为 $init$ ）。也就是说，历史的数据对当前的输出有影响。

这里我们可以回顾一下记忆（memory）的定义：

记忆（百度百科）人类思维中信息内容的储备与使用过程。

根据定义，我简单的把记忆分为：

识记：记忆过程的开端，对事物识别和记住。

印象：信息内容的储备。

再认：信息内容的使用。

让我们回到上面的公式，我想将公式中的权值赋予实际意义：

$W_{xh}$ ：识记 --- 对当前时刻进行识别和记住。

$W_{hh}$ ：印象 --- 将历史时刻的信息储备调用。

$W_{oh}$ ：再认 --- 结合印象与当前接受的输入对信息内容进行使用。

这时我们重新看整个模型，就可以动态的、流动的将模型如何处理数据，和其中蕴含的记忆功能理解清楚。

对应于CNN中卷积起到的空域权值共享，RNN中则是一种时域上的权值共享。

LSTM中的memory

首先贴出RNN与LSTM各自的示意图：（图片来自：Understanding LSTM Networks）

对比发现，其实LSTM作为RNN的一个变体，仅是将RNN中的隐藏层cell变得复杂了一些，并使用了一些门（gate）将不同时刻的层间信息与某一时刻的输入信息处理的更加透明。也可以理解为将原本黑匣子似的RNN隐藏层中加入先验知识------输入门、遗忘门、输出门，然他们分工明确，各司其职。

我在这里并不想讨论LSTM基础知识，也不想讨论为什么LSTM能抑制梯度爆炸/消失，若对后文理解不顺推荐阅读YJango的循环神经网络——实现LSTM。

本文探讨的为memory，记忆，在LSTM三个门中遗忘门是对以往的历史信息做处理的机制。LSTM基本公式贴在下面：

其中 $f_t$ 为遗忘门，这里的 $c$ 对应的RNN中的 $h$ ，而 $h$ 对应的为输出 $y$ 。

我们对比RNN公式不难发现，LSTM只是将RNN上装备了一些各司其职的门，这些门中的权值便是LSTM需要训练的参数。仔细观察公式会发现，其中 $f_t$ 与上一时刻的 $c_{t-1}$ 点乘更新本时刻的 $c_t$ 。这里通过训练 $f_t$ 对历史时刻选择性“遗忘”，这里的过程可以理解为训练了一层mask，用来dropout与新数据相关性不高的历史信息 $c_{t-1}$ 。