TensorFlow学习日记8

来源:互联网 发布:中文翻译软件哪个好 编辑:程序博客网 时间:2024/06/15 16:10

1. char-rnn 

解析:char-rnn是一个字符(中文就是一个字,英文就是一个字母)水平的语言模型,通过训练文本文件可以预测序

中下一个出现的字符,并以此来生成完整的文本。


2. Seq2Seq模型(Encoder-Decoder模型)

解析:


(1)Encoder-Decoder结构先将输入数据编码成一个上下文向量c,得到c有多种方式,最简单的方法就是把Encoder

的最后一个隐状态赋值给c,还可以对最后的隐状态做一个变换得到c,也可以对所有的隐状态做变换。

(2)得到c之后,就用另一个RNN网络对其进行解码。具体做法是将c当做之前的初始状态输入到Decoder中,还

有一种做法是将c当做每一步的输入。


3. Attention机制

解析:


每一个c会自动去选取与当前所要输出的y最合适的上下文信息。具体来说,用衡量Encoder中第j阶段的和解码

时第i阶段的相关性,最终Decoder中第i阶段的输入的上下文信息就来自于所有的加权和。其中,是从模型

中学习出来的,它实际和Decoder的第i-1阶段的隐状态、Encoder第j个阶段的隐状态有关。

计算过程,如下所示:



参考文献:

[1] 完全图解RNN、RNN变体、Seq2Seq、Attention机制:https://zhuanlan.zhihu.com/p/28054589