LSTM基本原理

来源：互联网发布：网络诈骗2000判刑多久编辑：程序博客网时间：2024/05/21 06:43

感觉RNN比CNN会难理解一点，刚开始对RNN并不是很理解，直到看了大神的这篇文章Understanding LSTM Networks才感觉理解了一些，写个总结。

三个门

原始输入循环体的是当前输入xt和上前一步的输出ht−1，以及上一步的状态Ct−1,

xt，ht−1先遇到遗忘门（forget gate）：

ft=sigmoid(Wf[ht−1,xt]+bf)

经过遗忘门的函数之后产生一个0到1之间的输出ft,代表遗忘多少之前的状态Ct−1,当ft为0时代表全部遗忘，1代表完全保持。

另外一条路线上，xt，ht−1又会遇见输入门(input gate)，输入门会决定记忆哪些值：

it=sigmoid(Wi[ht−1,xt]+bi)

另外同时经过tanh函数会产生一个新的状态C′t：

C′t=tanh(WC[ht−1,xt]+bC)

这个时候，由Ct−1,ft,C′t,it就可以决定循环体的当前状态Ct了:

Ct=ft∗Ct−1+it∗C′t

有了当前的状态，自然就可以去输出门（output gate）了：

ot=sigmoid(Wo[ht−1,xt]+bo)

ht=ot∗tanh(Ct)

总结：从上面的公式，我们容易发现，每个门的形态是一样的，都是通过sigmoid函数作用于当前的输入xt和前一时刻的输出ht−1产生一个0到1的数值，以此来决定通过多少信息。

先抛开这几个门，最简单的循环体内部就是一个全连接的神经网络，真实输出可能会再追加一个全连接的神经网络。

我们在用TensorFlow创建RNN模型的时候要设置hidden_size是真实输出的网络的输出神经元个数。

输入的数据是上一时刻的输出ht−1加上当前时刻的输入xt,如果是0时刻的话根据自己的设定填充。

比如当前输入神经元是x个上一状态的输入神经元是h个，那么合在一起的输入神经元就是（x+h）个，因为内部输出要作用于下一个循环体因此内部输出神经元也是h个，于是循环体内部就是(h+x)*h个权重和h个偏置，内部的输出再外接一个hidden_size个输出神经元的全连接层便产生了真实输出。

阅读全文

0 0