RNN简介

来源：互联网发布：可以画画的软件编辑：程序博客网时间：2024/06/05 04:33

RNN简介

最近由于工作需要，看了一些RNN (Recurrent Neural Networks )的相关资料，对RNN多少有了一些了解。发现一个绝佳的RNN入门tutorial，顺手记录下来。

以下内容大部分译自：http://www.wildml.com/2015/09/recurrent-neural-networks-tutorial-part-1-introduction-to-rnns/

1、什么是RNN？

在如今高速发展的互联网时代，我们的生活工作中其实有很多RNN的影子，比如：语音助手、机器翻译等等，那么什么是RNN呢？

RNN能够运用序列数据信息。在传统的神经网络中，所有的输入(或输出)之间是独立的 (即本层内部没有连接)。也就是说，输入与输入之间没有任何关联，这种假设对于序列数据显然不合理，比如：给定一个句子的前几个词，预测接下来最可能出现的词 (句子前后不同的词之间有密切的关联)。RNN能够处理这种类型的任务。

典型的RNN结构如下：

基本RNN结构和按时间展开的结构(图片来源)

在上图中，xt 表示 t 时刻的输入，可以用向量(比如one-hot vector)表示；

st 是 t 时刻的隐藏状态，它表示网络的记忆单元，由前一时刻的隐藏状态和当前时刻的输入来确定：st=f(Uxt+Wst−1)。函数 f 通常是非线性激活函数，比如：tanh 或 ReLU。初始状态 s−1 通常需要初始化为0。

ot 表示 t 时刻的输出，它与隐藏状态有关：ot=softmax(Vst)。

U,W,V 分别是输入与隐藏状态、先前隐藏状态与当前隐藏状态、隐藏状态与输出之间的连接权重。与传统神经网络不同，这些连接权重在不同时刻 t 取值相同，极大的降低了RNN模型中的参数个数。

理论上，隐藏状态 st 可以记忆所有之前步骤的信息，但实际情况中， st 对于太长时间之前的信息是无能为力的，这是因为基本的RNN结构优化求解中存在梯度小时/爆炸问题 (后续对此做专门的解释)。

2. RNN的应用

RNN目前已有了很多成功的应用，主要是LSTM(long-short term memory)模型的广泛使用。LSTM比基本的RNN模型能更好的解决长期依赖的问题(即需要很久之前的信息)。与基本RNN相比，LSTM只是在记忆单元的计算上做了些改进，本质没有太大区别 (后续做较详细的介绍)。

(1) 语言建模和文本生成

给定一系列文字(比如编码为ont-hot vector)，我们期望预测出可能出现的每个词的概率。语言模型可以估计每个句子的概率，概率大的最可能是正确的。