机器理解的两段式合成网络迁移学习

来源:互联网 发布:香蕉网络电视 香蕉tv 编辑:程序博客网 时间:2024/05/29 10:11

介绍

机器理解(MC)是指对一段提供文本回答问题的能力,是自然语言处理中的一个关键任务。高质量、大规模、人工备注数据集的出现为例如深度神经网络等数据集中但具表达性模型的训练提供了可能。此外,由于答案是文本中的片段因此缩小了可能答案的搜索范围。

但是多数模型训练依赖大量的人工标注数据,而数据收集是耗时而昂贵的任务。此外直接将在某一领域训练的MC模型用于回答另一领域的问题会导致性能下降。

虽然研究不足,但将一个MC模型转换到多个领域的能力非常重要。例如,将一个在维基百科上训练的MC模型应用于没有对数据进行标注的客户支持手册或者新文章的问答系统,可以研发出一列些的实际应用。

这里我们将采用一个两段式合成网络(SynNet)来解决这个问题。SynNet在一个新的领域段落生成合成问答对,然后替代人工生成标注来对在原始领域训练的MC模型进行微调。

用合成数据来解决数据不足问题的思想此前已有探讨。例如在翻译任务中,Sennrich等提出了对给定真实例句生成合成翻译来优化现存机器翻译系统的方法。

但是,与机器翻译不同,对于MC任务,我们需要对给定的语境文本同时合成问题和答案。此外,虽然问题是语法通顺的自然语言句子,答案大多是段落中重要语义概念,例如一个名字、行为或数字,常常是一个词或短语。考虑到答案和问题的语言结构十分不同,应当将答案和问题看成不同类型的数据。因此需要合成(问题,答案)元组。

我们的方法是将生成问答对的过程分解成两步,答案生成受段落条件约束,而问题生成受段落和答案条件约束。我们首先生成答案是因为答案一般是关键语义概念,而问题可以看作一个为查询概念而组成的句子。

使用我们提出的SynNet能够在直接应用在另一领域训练的高性能MC模型方面大幅优于基准表现。例如当我们将算法应用于斯坦福问答数据集(SQuAD)预训练模型(包括维基百科文章),来回答在NewsQA数据集(包括CNN/Daily Mail文章)的问题,我们将SQuAD的基准表现从39.0%提高到了46.6%F1,并且接近此前Trischler等公布的50.0%,而没有使用任何在新领域的标注数据。此外,错误分析显示我们对于所有普通问题类型都取得了更高的准确度率。

模型


相关工作

1、问答

问答是自然语言处理中一个活跃的领域,有很多方面正在进行的研究。机器理解,一种提取问题答案提出形式(答案是语境段落中一个或几个文本片段)近期吸引了很多关注。超过10万个问答对的大规模人工标注数据集的出现,例如SQuAD(Rajpurkar等2016),NewsQA(Trischler等2016),和MSMARCO(Nguyen等2016),引导了大量成功的深度学习模型。

2、半监督学习

半监督学习历史悠久并应用于许多自然语言处理任务,例如依赖解析(Koo等2008)、情感分析(Yang等2015)、机器翻译(Sennrich等2016)、语义解析(Berant和Liang等2016)等。近期对半监督数据生成合成标注的工作提高了在阅读理解和视觉问答模型的表现。也有一些工作是关于生成高质量的问题。

3、迁移学习

迁移学习(Pan和Yang2010)被成功应用于许多机器学习领域,例如机器翻译(Zoph等2016)、计算机视觉(Sharif Razavian等2014)和语音识别(Doulaty等2015)。特别是在大规模ImageNet上训练的物体识别模型(Russakovsky等2015)被证明可在多个任务中作为出色特征提取器,例如图像捕捉(Lu等2016)和视觉问答(Zhou等2015)。


原创粉丝点击