机器理解的两段式合成网络迁移学习

来源：互联网发布：香蕉网络电视香蕉tv 编辑：程序博客网时间：2024/05/29 10:11

介绍

机器理解（MC）是指对一段提供文本回答问题的能力，是自然语言处理中的一个关键任务。高质量、大规模、人工备注数据集的出现为例如深度神经网络等数据集中但具表达性模型的训练提供了可能。此外，由于答案是文本中的片段因此缩小了可能答案的搜索范围。

但是多数模型训练依赖大量的人工标注数据，而数据收集是耗时而昂贵的任务。此外直接将在某一领域训练的MC模型用于回答另一领域的问题会导致性能下降。

虽然研究不足，但将一个MC模型转换到多个领域的能力非常重要。例如，将一个在维基百科上训练的MC模型应用于没有对数据进行标注的客户支持手册或者新文章的问答系统，可以研发出一列些的实际应用。

这里我们将采用一个两段式合成网络（SynNet）来解决这个问题。SynNet在一个新的领域段落生成合成问答对，然后替代人工生成标注来对在原始领域训练的MC模型进行微调。

用合成数据来解决数据不足问题的思想此前已有探讨。例如在翻译任务中，Sennrich等提出了对给定真实例句生成合成翻译来优化现存机器翻译系统的方法。

但是，与机器翻译不同，对于MC任务，我们需要对给定的语境文本同时合成问题和答案。此外，虽然问题是语法通顺的自然语言句子，答案大多是段落中重要语义概念，例如一个名字、行为或数字，常常是一个词或短语。考虑到答案和问题的语言结构十分不同，应当将答案和问题看成不同类型的数据。因此需要合成（问题，答案）元组。

我们的方法是将生成问答对的过程分解成两步，答案生成受段落条件约束，而问题生成受段落和答案条件约束。我们首先生成答案是因为答案一般是关键语义概念，而问题可以看作一个为查询概念而组成的句子。

使用我们提出的SynNet能够在直接应用在另一领域训练的高性能MC模型方面大幅优于基准表现。例如当我们将算法应用于斯坦福问答数据集（SQuAD）预训练模型（包括维基百科文章），来回答在NewsQA数据集（包括CNN/Daily Mail文章）的问题，我们将SQuAD的基准表现从39.0%提高到了46.6%F1，并且接近此前Trischler等公布的50.0%，而没有使用任何在新领域的标注数据。此外，错误分析显示我们对于所有普通问题类型都取得了更高的准确度率。

模型