最新|TensorFlow开源的序列到序列框架

来源:互联网 发布:mysql client android 编辑:程序博客网 时间:2024/05/29 18:35

最新|TensorFlow开源的序列到序列框架:tf-seq2seq

4月11日,Google的大脑研究团队发布了 tf-seq2seq这个开源的TensorFlow框架,它能够轻易进行实验而达到现有的效果,团队制作了该框架的代码库和模块等,能够最好地支持其功能。

去年,该团队发布了Google神经机器翻译(GoogleNeural Machine Translation,GNMT),它是一个序列到序列sequence-to-sequence(“seq2seq”)的模型,目前用于Google翻译系统中。虽然GNMT在翻译质量上有长足的进步,但是它还是受限于训练的框架无法对外部研究人员开放的短板。

tf-seq2seq:支持各种标准seq2seq模型的配置

此框架支持各种标准seq2seq模型的配置,例如深度的编码器和解码器,注意力机制,RNN或beam尺寸大小。这些功能让我们能够更好地发现最优超参数,得到更好的框架,详细可见团队的文章《神经机器翻译架构的大量探索》(“Massive Explorationof Neural Machine Translation Architectures”)

一个seq2seq模型能够翻译普通话到英文,每次翻译中,编码器都会处理1个汉字(黑色箭头),并生产一个输出向量(见蓝色箭头),解码器会逐字生成英文翻译,每次都处理最后一个词的前一个状态,并处理一个加权的所有的编码输出(aka attention[3],蓝色),最后输出下一个英文词。注意在应用中研究人员使用的是wordpieces[4]来处理生词。

tf-seq2seq:应用于各种序列到序列的任务

除了机器翻译外,tf-seq2seq能够应用于序列到序列的任务(例如学习基于一个输入序列产生输出序列的情况),包括机器总结、图像处理、语言识别和对话建模。该研究团队希望提出的新框架能够加速深度学习的研究,具体可以见其GitHub的项目库GitHub repository。

论文摘要

神经机器翻译(NMT)在过去几年中取得了显着的进步,现在生产系统正在部署到终端用户。 目前架构的一个主要缺点是训练费用昂贵,通常需要几天到几周的GPU时间来收敛。 这使得穷尽的超参数搜索,如通常与其他神经网络架构一样,非常昂贵。 在这项工作中,我们介绍了NMT架构超参数的第一次大规模分析。对应于GPU上的标准WMT英语超过250000小时的德语翻译任务。 我们的实验为构建和扩展NMT架构提供了新的见解和实用建议。 作为这一贡献的一部分,我们发布了一个开放源码的NMT框架,使研究人员能够轻松实验新技术,并重现现有技术的结果。

论文关键数据对比:

论文地址:https://arxiv.org/pdf/1703.03906.pdf

GitHub资源:https://github.com/google/seq2seq

参考文献

[1] Massive Exploration of Neural Machine Translation Architectures, Denny Britz, Anna Goldie, Minh-Thang Luong, Quoc Le(https://arxiv.org/pdf/1703.03906.pdf

[2] Sequence to Sequence Learning with Neural Networks, Ilya Sutskever, Oriol Vinyals, Quoc V. Le. NIPS, 2014(https://papers.nips.cc/paper/5346-sequence-to-sequence-learning-with-neural-networks.pdf

[3] Neural Machine Translation by Jointly Learning to Align and Translate, Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio. ICLR, 2015(https://arxiv.org/abs/1409.0473

[4] Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation, Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc V. Le, Mohammad Norouzi, Wolfgang Macherey, Maxim Krikun, Yuan Cao, Qin Gao, Klaus Macherey, Jeff Klingner, Apurva Shah, Melvin Johnson, Xiaobing Liu, Łukasz Kaiser, Stephan Gouws, Yoshikiyo Kato, Taku Kudo, Hideto Kazawa, Keith Stevens, George Kurian, Nishant Patil, Wei Wang, Cliff Young, Jason Smith, Jason Riesa, Alex Rudnick, Oriol Vinyals, Greg Corrado, Macduff Hughes, Jeffrey Dean. Technical Report, 2016(https://arxiv.org/abs/1609.08144

[5] Attention and Augmented Recurrent Neural Networks, Chris Olah, Shan Carter. Distill, 2016(http://distill.pub/2016/augmented-rnns/

[6] Neural Machine Translation and Sequence-to-sequence Models: A Tutorial, Graham Neubig(https://arxiv.org/abs/1703.01619

[7] Sequence-to-Sequence Models, TensorFlow.org(https://www.tensorflow.org/tutorials/seq2seq