机器翻译之Facebook的CNN与Google的Attention

来源：互联网发布：zencart建站编辑：程序博客网时间：2024/05/19 18:48

这里写图片描述

机器翻译的常用架构是seq2seq，可是seq2seq中的核心模型RNN是序列模型，后面的计算依赖于前面的计算，如何并行提高效率很是苦恼。最近，Facebook和Google的研究人员分别尝试用CNN与Attention代替seq2seq进行机器翻译，提高了训练效率，结构与思想也很予人启迪。

传统的seq2seq

这里写图片描述

传统seq2seq训练结构如上图，采用两个RNN，分别作为encoder和decoder。seq2seq的一些改进如下：

这里写图片描述

其结构如上面2图所示，具体地：

position embedding，在词向量中潜入了位置信息。

首先，简单描述下文中的卷积，假设原数据大小X∈ℝk∗d（k个数据，embeding的维度是d），每个卷积核参数化W∈ℝ2d∗kd，卷积后得到的结果是ℝ2d。padding合适的化，最后得到ℝ2k∗d。

卷积的引入，有以下几个优点：

GLU的公式如下：

v ([A, B]) = A \circ σ (B)

卷积出来的数据【2m，e_m】对应【A，B】，通过GLU便恢复了原数据形状【m，e_m】。同时GLU中的A控制信息，B相当于开关控制着有效信息的流动。

attention的分数矩阵，是输入、输出序列通过多个卷积stack起来获得的，每个词的可视域通过CNN自然地扩增了。

attention的上文信息，通过低层的CNN和高层的CNN组合获得，反映了词的细节信息和全局主旨信息。

这里写图片描述

这里写图片描述

本文提出了一种key、value、pair的计算attention的架构，结构与思路如上图所示。首先，通过Query和Key矩阵计算每个quiry对应的key的匹配程度，然后根据匹配程度将Value矩阵中的元素组合起来。

这里写图片描述

通过一个全连接层，可以将K、V、Q映射到维度较低的子空间，然后在不同的子空间进行attention的计算。这样做有如下优点：

结构中共出现了3出attention：

encoder-decoder attention，K、V来自encoder，Q来自decoder，作用与传统的seq2seq相似，decoder根据不同的位置捕获encoder不同位置的信息。
encoder self-attention。K、V、Q来自同一位置，encoder的每一个位置都捕获所有位置的信息。
decoder self-attention，K、V、Q来自同一位置，decoder的每一个位置都捕获该位置前所有位置的信息（通过mask实现）。

阅读全文

1 0