TensorFlow学习日记8

来源：互联网发布：中文翻译软件哪个好编辑：程序博客网时间：2024/06/15 16:10

1. char-rnn

解析：char-rnn是一个字符（中文就是一个字，英文就是一个字母）水平的语言模型，通过训练文本文件可以预测序

列中下一个出现的字符，并以此来生成完整的文本。

2. Seq2Seq模型（Encoder-Decoder模型）

解析：

（1）Encoder-Decoder结构先将输入数据编码成一个上下文向量c，得到c有多种方式，最简单的方法就是把Encoder

的最后一个隐状态赋值给c，还可以对最后的隐状态做一个变换得到c，也可以对所有的隐状态做变换。

（2）得到c之后，就用另一个RNN网络对其进行解码。具体做法是将c当做之前的初始状态 $h_0$ 输入到Decoder中，还

有一种做法是将c当做每一步的输入。

3. Attention机制

解析：

每一个c会自动去选取与当前所要输出的y最合适的上下文信息。具体来说，用 $a_{ij}$ 衡量Encoder中第j阶段的 $h_j$ 和解码

时第i阶段的相关性，最终Decoder中第i阶段的输入的上下文信息 $c_i$ 就来自于所有 $h_j$ 对 $a_{ij}$ 的加权和。其中， $a_{ij}$ 是从模型

中学习出来的，它实际和Decoder的第i-1阶段的隐状态、Encoder第j个阶段的隐状态有关。

$a_{1j}$ ， $a_{2j}$ ， $a_{3j}$ 计算过程，如下所示：

参考文献：

[1] 完全图解RNN、RNN变体、Seq2Seq、Attention机制：https://zhuanlan.zhihu.com/p/28054589

阅读全文

0 0