【NLP】一次性生成完整句子！Salesforce发布全球首个「全并行」神经翻译系统

来源：互联网发布：淘宝进销存软件免费版编辑：程序博客网时间：2024/04/28 07:13

原文来源：Salesforce Researc

作者：JiataoGu、 James Bradbury

「雷克世界」编译：嗯~阿童木呀、多啦A亮

Salesforce研究院去年了成立研究院，之后又发布其人工智能服务Einstein AI。该研究院在自然语言处理，尤其是翻译方面取得了很多成绩，雷克世界此前曾对其「通过情景化词向量从翻译中学习」（http://mp.weixin.qq.com/s/3GndUC9-8C5UONsgUqKoDA）进行过报道。近日，他们有推出了令人振奋的科研成果，他们通过全并行的文本生成，用于神经机器翻译。

在过去的几年里，随着技术的飞速发展，神经网络推动了自然语言任务在准确性和质量方面的快速提高，如文本分类和问题回答等。而其中由深度学习带来的一个令人印象深刻的领域是需要机器来生成自然语言文本的任务。其中两个任务是基于神经网络模型且具有最先进的性能的是文本摘要和机器翻译。

然而，到目前为止，所有基于神经网络和深度学习的文本生成模型都具有相同的、令人惊讶的局限性：就像我们一样，它们只能逐个单词，甚至逐个字母地生成语言。如今，Salesforce正宣布了一个能够克服这种局限性的神经机器翻译系统，它可以以完全并行的方式，一次性生成一个完整的句子。而这意味着用户的等待时间减少了10倍，同时翻译质量也与最好的逐单词模型非常相近。

图1：模型概述：我们使用的所有层（包括词嵌入、注意、MLP和softmax层）可以并行操作，而“生成力预测器”，正如下面描述的那样，尽管是在并行性的情况下，仍然可以实现高质量、自一致的输出翻译。

高效的神经机器翻译

自2014年以来，随着神经网络和深度学习，以及所谓的神经机器翻译的应用，机器翻译领域取得了巨大的进步。特别是随着注意的使用，在2015年出现了一个飞跃式发展，现在则是涉及从蕴涵到问题问答的自然语言处理任务的关键技术。

尽管相较于传统方法来说，神经机器翻译模型的翻译质量要高得多，但与此同时，神经MT模型的慢是以一种至关重要的方式呈现的：它们有更高的延迟，这是完成用户所提供的新文本的翻译所需要的时间。这是因为现有的神经机器翻译系统每次只翻译一个单词，且需要运行整个神经网络，而其中每个单词的生成需要数十亿的计算。

因此，计算效率一直是现如今神经机器翻译领域所研究的一个主要目标。大约一年前，四个研究小组已经发表了关于更高效的神经MT模型的论文，主要是为了消除循环神经网络（RNNs）的使用。这在深度学习序列模型中是很常见的，但由于它们本质上来说是很难并行化的，所以运行速度很慢。因此，DeepMind引入了ByteNet，它使用的是基于卷积神经网络的并行树结构以此来替代RNN。Salesforce Research提出了QRNN，这是一种高效的RNN层替代方案，可以提高在机器翻译和其他任务领域的性能。今年早些时候，Facebook AI Research发布了完全卷积神经MT，而Google Brain则描述了一种翻译模型的改进，即最先进的完全基于注意的MT模型。

所有这些方法都使得模型可以进行更快的训练，并且还可以在翻译时间上提高效率，但是它们都存在前面所述的同样的局限性问题：即它们都是逐个单词地输出。

克服逐个单词翻译的限制

其实，这主要是由现有神经网络序列模型的基本技术属性导致的：它们是自回归的，这意味着它们的解码器（产生输出文本的组件）需要使用先前输出的文本来产生其输出的下一个单词。也就是说，自回归解码器使得后面的单词生成是以前面的单词为基础的。当然，这个属性也有若干好处，特别是，它使自回归模型可以更容易地进行训练。

我们的模型（非自回归（non-autoregressive），因为它没有上述属性）就像最近发布的改进版一样，是始于相同的基础神经网络层，但是引入了一个完全不同的基于“生成”的文本生成过程，这是一个来自IBM在20世纪90年代初推出的传统机器翻译研究中的概念。这种潜生成模型是本文所主要介绍的。

非自回归神经机器翻译

先前的神经机器翻译模型和我们的新的非自回归模型之间的区别，可以用以下两个动画来进行表示。紫色圆点代表“编码器1”中的神经网络层，“编码器1”是一个用以理解和解释输入句子（此处指的是英文）的网络；蓝色点代表“解码器2”中的层，其工作是将这种理解转换成另一种语言（此处指的是德语）表示的句子；而彩色的线代表层之间的注意连接，使得网络能够将句子不同部分的信息结合在一起。请注意，两个模型中的紫色编码器层可以同时运行（动画的第一部分，用密集的红色注意连接），而第一个动画中的蓝色解码器层必须在一次处理一个单词，因为在解码器开始产生下一个之前，每个输出单词必须做好准备（见棕色箭头）。

图2：自回归神经机器翻译。输出句子是逐个单词生成的，因为每个输出步骤在不知道先前生成的单词的情况下不能开始。

下一个动画展示了我们模型的基本工作方式。其中，编码器和解码器都可以并行工作，而不是逐个单词地输出。现在编码器有两个任务：首先它必须对输入句子进行理解和解释，但是它也必须预测一系列数字（2,0,0,2,1），然后将其用于启动并行解码器，这可以通过直接从输入的文本中进行复制，而不需要进行棕色箭头所指的自回归操作。这些数字被称为生成力（fertilities）; 它们代表了每个单词在输出句子中所占有的空间。所以如果一个单词的生成力是2，那么这意味着模型决定在输出中分配两个单词来对其进行翻译。

图3：非自回归神经机器翻译使用我们的潜在生成力模型。输出句子是以并行方式生成的。

生成力序列为解码器提供了一个计划或规划，使其能够并行地生成整个翻译。如果没有像这样的计划（称为潜变量），并行解码器的任务就像一个翻译小组一样，每个译者都必须提供一个输出翻译的单词，但是不能提前告诉对方他们准备说什么。我们将生成力作为一个潜变量，确保这个隐喻的翻译小组中的所有译者都能够以并行方式尽心工作，从而做出彼此相一致的翻译决定。

实验

尽管数量级有较低的延迟，但我们的模型将我们测试过的语言对之一（英语译成罗马尼亚语）的最佳翻译质量（以BLEU评分衡量）联系起来，并在其他语言上获得了非常好的结果。

表1：五个流行数据集的非自回归翻译模型的结果。标有“NAT”的行显示了我们模型的性能，没有我们称之为微调的额外训练步骤；“NAT-FT”则包括这些步骤。“NPD”是指噪声并行解码，这意味着要并行地尝试几个不同的生成计划，然后选择最好的一个。自回归模型使用相同的架构和相同的模型大小；“b = 4”表示波束大小为4的波束搜索。

示例

我们模型的好处之一是用简单的方法来获得更好的翻译：尝试并行几个不同的生成计划，然后从另一个同样快速的翻译模型中选择最好的输出。下面以罗马尼亚语-英语的示例显示“噪音并行解码”过程：

图4：噪声并行解码的例子。首先，编码器在输出句子中产生几个可能的计划，如中间所示，用于输出语句中的空间分配。这些生成计划中的每一个都能导致不同可能的输出翻译，如右图所示。然后，自回归MT模型选择最佳翻译，用红色表示，这个过程比直接使用它生成输出要快得多。总之，NPD的两个步骤带来的总延迟仅为非自回归模型的两倍。

论文：《非自回归神经机器翻译》

摘要

现有的神经机器翻译方法对先前生成的输出中的每个输出字进行调整。我们引入一种模型来避免这种自回归属性并且产生并行输出，从而在推理过程中遵循一个数量级的较低延迟的原则。通过知识精炼，使用输入生成力作为潜在变量，并进行策略梯度微调，相对于用作参照的自回归变换网络，我们牺牲的BLEU得分仅为2.0。我们展示了与训练策略三个方面相关的大量累积改进，并验证了我们在IWSLT 2016英语-德语和两个WMT语言对上的方法。通过在推断时间内并行采样生成力，我们的非自回归模型在WMT 2016 英语-罗马尼亚语上实现了近29.8 BLEU的表现。

下载论文：https://einstein.ai/static/images/pages/research/non-autoregressive-neural-mt.pdf

人工智能赛博物理操作系统

AI-CPS OS

“人工智能赛博物理操作系统”（新一代技术+商业操作系统“AI-CPS OS”：云计算+大数据+物联网+区块链+人工智能）分支用来的今天，企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中，利用AI-CPS OS形成数字化+智能化力量，实现行业的重新布局、企业的重新构建和自我的焕然新生。

AI-CPS OS的真正价值并不来自构成技术或功能，而是要以一种传递独特竞争优势的方式将自动化+信息化、智造+产品+服务和数据+分析一体化，这种整合方式能够释放新的业务和运营模式。如果不能实现跨功能的更大规模融合，没有颠覆现状的意愿，这些将不可能实现。

领导者无法依靠某种单一战略方法来应对多维度的数字化变革。面对新一代技术+商业操作系统AI-CPS OS颠覆性的数字化+智能化力量，领导者必须在行业、企业与个人这三个层面都保持领先地位：

重新行业布局：你的世界观要怎样改变才算足够？你必须对行业典范进行怎样的反思？
重新构建企业：你的企业需要做出什么样的变化？你准备如何重新定义你的公司？
重新打造自己：你需要成为怎样的人？要重塑自己并在数字化+智能化时代保有领先地位，你必须如何去做？

AI-CPS OS是数字化智能化创新平台，设计思路是将大数据、物联网、区块链和人工智能等无缝整合在云端，可以帮助企业将创新成果融入自身业务体系，实现各个前沿技术在云端的优势协同。AI-CPS OS形成的数字化+智能化力量与行业、企业及个人三个层面的交叉，形成了领导力模式，使数字化融入到领导者所在企业与领导方式的核心位置：

精细：这种力量能够使人在更加真实、细致的层面观察与感知现实世界和数字化世界正在发生的一切，进而理解和更加精细地进行产品个性化控制、微观业务场景事件和结果控制。
智能：模型随着时间（数据）的变化而变化，整个系统就具备了智能（自学习）的能力。
高效：企业需要建立实时或者准实时的数据采集传输、模型预测和响应决策能力，这样智能就从批量性、阶段性的行为变成一个可以实时触达的行为。
不确定性：数字化变更颠覆和改变了领导者曾经仰仗的思维方式、结构和实践经验，其结果就是形成了复合不确定性这种颠覆性力量。主要的不确定性蕴含于三个领域：技术、文化、制度。
边界模糊：数字世界与现实世界的不断融合成CPS不仅让人们所知行业的核心产品、经济学定理和可能性都产生了变化，还模糊了不同行业间的界限。这种效应正在向生态系统、企业、客户、产品快速蔓延。

AI-CPS OS形成的数字化+智能化力量通过三个方式激发经济增长：

创造虚拟劳动力，承担需要适应性和敏捷性的复杂任务，即“智能自动化”，以区别于传统的自动化解决方案；
对现有劳动力和实物资产进行有利的补充和提升，提高资本效率；
人工智能的普及，将推动多行业的相关创新，开辟崭新的经济增长空间。

给决策制定者和商业领袖的建议：

超越自动化，开启新创新模式：利用具有自主学习和自我控制能力的动态机器智能，为企业创造新商机；
迎接新一代信息技术，迎接人工智能：无缝整合人类智慧与机器智能，重新
评估未来的知识和技能类型；
制定道德规范：切实为人工智能生态系统制定道德准则，并在智能机器的开
发过程中确定更加明晰的标准和最佳实践；
重视再分配效应：对人工智能可能带来的冲击做好准备，制定战略帮助面临
较高失业风险的人群；
开发数字化+智能化企业所需新能力：员工团队需要积极掌握判断、沟通及想象力和创造力等人类所特有的重要能力。对于中国企业来说，创造兼具包容性和多样性的文化也非常重要。

子曰：“君子和而不同，小人同而不和。” 《论语·子路》云计算、大数据、物联网、区块链和人工智能，像君子一般融合，一起体现科技就是生产力。

如果说上一次哥伦布地理大发现，拓展的是人类的物理空间。那么这一次地理大发现，拓展的就是人们的数字空间。在数学空间，建立新的商业文明，从而发现新的创富模式，为人类社会带来新的财富空间。云计算，大数据、物联网和区块链，是进入这个数字空间的船，而人工智能就是那船上的帆，哥伦布之帆！

新一代技术+商业的人工智能赛博物理操作系统AI-CPS OS作为新一轮产业变革的核心驱动力，将进一步释放历次科技革命和产业变革积蓄的巨大能量，并创造新的强大引擎。重构生产、分配、交换、消费等经济活动各环节，形成从宏观到微观各领域的智能化新需求，催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革，深刻改变人类生产生活方式和思维模式，实现社会生产力的整体跃升。

产业智能官 AI-CPS

用“人工智能赛博物理操作系统”（新一代技术+商业操作系统“AI-CPS OS”：云计算+大数据+物联网+区块链+人工智能），在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的认知计算和机器智能；实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链。

长按上方二维码关注微信公众号： AI-CPS，更多信息回复：

新技术：“云计算”、“大数据”、“物联网”、“区块链”、“人工智能”；新产业：“智能制造”、“智能农业”、“智能金融”、“智能零售”、“智能城市”、“智能驾驶”；新模式：“财富空间”、“特色小镇”、“赛博物理”、“供应链金融”。

点击“阅读原文”，访问AI-CPS OS官网

本文系“产业智能官”（公众号ID：AI-CPS）收集整理，转载请注明出处！
版权声明：由产业智能官（公众号ID：AI-CPS）推荐的文章，除非确实无法确认，我们都会注明作者和来源。部分文章推送时未能与原作者取得联系。若涉及版权问题，烦请原作者联系我们，与您共同协商解决。联系、投稿邮箱：erp_vip@hotmail.com

阅读全文

0 0