nlp中的LSTM学习

来源:互联网 发布:孙玉伯 知乎 编辑:程序博客网 时间:2024/05/17 03:33
  1. RNN

最简单的RNN:隐藏层的单元与自己进行连接,并且与同层的隐藏单元进行连接。
但是经过长时间步骤的错误传播(propagating errors),著名的梯度消失和梯度爆 炸问题(vanishing and exploding gradients)出现了,取决于权值是否大于1(depending on whether the weight |wj|> 1 or |wj|< 1 )。

  1. LSTM

LSTM 的关键就是细胞状态。

LSTM 有通过精心设计的称作为“门”的结构来去除或者增加信息到细胞状态的能力。门是一种让信息选择式通过的方法。他们包含一个 sigmoid 神经网络层和一个 pointwise 乘法操作。

Sigmoid 层输出 0 到 1 之间的数值,描述每个部分有多少量可以通过。0 代表“不许任何量通过”,1 就指“允许任意量通过”!

原创粉丝点击