LSTM基本原理

来源:互联网 发布:网络诈骗2000判刑多久 编辑:程序博客网 时间:2024/05/21 06:43

感觉RNN比CNN会难理解一点,刚开始对RNN并不是很理解,直到看了大神的这篇文章Understanding LSTM Networks才感觉理解了一些,写个总结。

三个门

原始输入循环体的是当前输入xt和上前一步的输出ht1,以及上一步的状态Ct1,

xtht1先遇到遗忘门(forget gate)

ft=sigmoid(Wf[ht1,xt]+bf)

经过遗忘门的函数之后产生一个0到1之间的输出ft,代表遗忘多少之前的状态Ct1,当ft为0时代表全部遗忘,1代表完全保持。

另外一条路线上,xtht1又会遇见输入门(input gate),输入门会决定记忆哪些值:

it=sigmoid(Wi[ht1,xt]+bi)

另外同时经过tanh函数会产生一个新的状态Ct

Ct=tanh(WC[ht1,xt]+bC)

这个时候,由Ct1,ft,Ct,it就可以决定循环体的当前状态Ct了:

Ct=ftCt1+itCt

有了当前的状态,自然就可以去输出门(output gate)了:

ot=sigmoid(Wo[ht1,xt]+bo)

ht=ottanh(Ct)

总结:从上面的公式,我们容易发现,每个门的形态是一样的,都是通过sigmoid函数作用于当前的输入xt和前一时刻的输出ht1产生一个0到1的数值,以此来决定通过多少信息。

循环体内部结构

先抛开这几个门,最简单的循环体内部就是一个全连接的神经网络,真实输出可能会再追加一个全连接的神经网络。

我们在用TensorFlow创建RNN模型的时候要设置hidden_size是真实输出的网络的输出神经元个数。

输入的数据是上一时刻的输出ht1加上当前时刻的输入xt,如果是0时刻的话根据自己的设定填充。

比如当前输入神经元是x个上一状态的输入神经元是h个,那么合在一起的输入神经元就是(x+h)个,因为内部输出要作用于下一个循环体因此内部输出神经元也是h个,于是循环体内部就是(h+x)*h个权重和h个偏置,内部的输出再外接一个hidden_size个输出神经元的全连接层便产生了真实输出。