Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation

来源：互联网发布：软件安全测试工具编辑：程序博客网时间：2024/05/17 02:06

本文为论文翻译
在这个文章中，我们提出了一个新奇的神经网络模型，叫做RNN Encoder–Decoder，它包括两个RNN。一个ＲＮＮ用来把一个符号序列编码为固定长度的向量表示，另一个ＲＮＮ用来把向量表示解码为另外一个符号向量；提出的模型中的编码器和解码器被连接起来用于训练，目的是最大化目标序列相对于原序列的条件概率；基于经验，如果把the RNN Encoder–Decoder作为现存的log-linearmodel的添加的特性来计算语句对间的条件概率，统计机器翻译系统的性能能够提升。定性的，我们提出的模型学习到了语言中语句的一个包含语义和语法有意义的表示
Ｉｎｔｒｏｄｕｃｅ
深度神经网络已经在各种各样的应用中展现了很大的成功。例如，对象识别与语音识别；此外，许多最近的工作证明神经网络能够成功的用于许多自然语言处理过程中，这包括但不限于语言模型、解释识别和释义解释和单词嵌入提取；在统计机器翻译（statistical machine translation (SMT)）中，深度神经网络有望获得期望的效果；（Schwenk,2012）总结了一个在基于短语的SMT系统框架下的负反馈神经网络的成功应用。
沿着这条路线，使用神经网络对STM进行研究，这篇文章关注于一个新奇的神经网络框架，它能够被用于传统的基于语句的SMT框架的一部分。我们称之为RNN Encoder–Decoder，有两个ＲＮＮ组成，作为编码器和解码器组合。编码器把变长的源序列映射为一个固定长度的向量，解码器把向量表示映射为变长的目标序列。这两个网络连接起来被训练，目标是最大化条件概率，此外，我们提出使用一个相对复杂的隐含单元，来提高记忆能力和训练情况；
带有一个神奇隐含层的RNN Encoder–Decoder在从英语翻译为法语的项目中被基于经验主义的评价。我们训练这个模型来学习英语语句转化为相应法语语句的转换概率；这个模型之后被用于标准的基于语句的ＳＭＴ系统的一部分，通过对表中的语句对进行评分；基于经验主义的评价表明这种方案能够提高翻译的质量；
我们进行定性的分析，通过把训练的RNN Encoder–Decoder和已经存在的翻译模型进行比较。定量分析表明：the RNN Encoder–Decoder能够更好地捕获语言规律，直接说明了整体的翻译表现的性能提升；更深入的分析揭示了the RNN Encoder–Decoder学习到了一个语句的连续空间向量表示，它包含了语义和语句的语法结构；

0 0