ACL_2017年深度学习与NLP论文分享先行版（一）

来源：互联网发布：qq群淘宝客加人软件编辑：程序博客网时间：2024/05/29 19:47

本周末参加了由腾讯和中国中文信息学会青工委联合举办的ACL2017前沿论文报告会，邀请了ACL发表论文的国内学者们介绍NLP研究最新技术动态。 ACL是Annual Meeting of the Association for Computational Linguistics的简称，是由国际计算语言学协会举办的一年一度的自然语言处理方面的顶级会议。

本次报告会所报告的论文除一篇论文外，其余都在分享深度学习技术用于解决NLP的各方面的问题，可以了解深度学习在NLP各方面的应用最前沿的技术。此次分享会分为Machine Translation、Parsing/Semantic/Discourse、Sentiment/Information Extraction和Social Media/Word Segmentatin/Question Answering四个session组成。由于分享论文较多，因此会分两次分别与大家分享这次分享会的所有论文的重点内容，本次主要分享Machine Translation和Parsing/Semantic/Discourse两个session的内容。

Session 1: Machine Translation
1、Prior Knowledge Integration for Neural Machine Translation using Posterior Regularization
Authors: Jiacheng Zhang, Yang Liu, Huanbo Luan, Jingfang Xu and Maosong Sun
Main Content：先验知识对于神经机器翻译来说非常重要，现有的一些方法主要是通过改变模型的结构来对先验知识进行建模，这是一个domain_specific的事情，针对不同领域的不同先验知识，采用的方法也不同。因此，本论文的最大贡献在于提出了一个朴实的框架，通过在目标函数中最小化与先验知识相关的KL距离的方法把先验知识加入的神经机器翻译模型中去；基于这个框架，可以网NMT中加入更多的先验知识来提升翻译的质量。

2、Visualizing and Understanding Neural Machine Translation

Authors: Yanzhuo Ding, Yang Liu, Huanbo Luan and Maosong Sun

Main Content：本论文指出seq2seq + attention的机器翻译架构最大的不足之一在于它是一个黑箱子，我们并不知道它是如何进行解码和编码的，研究者们最近也尝试：通过权重的一阶导数来衡量输入input和输出output之间的相关性；通过把网络的输出分解成一个相关性的得分矩阵，通过逐层反向传播的方式来分析网络是如何工作的。基于此工作，本论文的最大贡献提出了LRP算法用于可视化和解释网络是如何工作的。文章从神经元角度和向量角度来定义了如何衡量两个神经元或向量之间的相似性，从而得到一个相似性矩阵，提出通过逐层反向传播的方法来可视化和解释NMT工作。给出了通过这种方法，如何来计算神经元的隐状态（hidden state）与上下文（context word）之间的相似性（relevance）。这些工作可以帮助我们分析NMT是如何工作的，帮助我们调试模型。
3、Incorporating Word Reordering Knowledge into Attention-based Neural Machine Translation
Authors: Jinchao Zhang, Mingxuan Wang, Qun Liu and Jie Zhou
Main Content：本论文重点关注翻译当中源语言句子与目标语言句子之间的文本对齐问题（Alignment error）。机器翻译中存在稀有词重排列问题（Rare word collacations），我的理解是NMT的输入X与输出Y的词语词之间顺序关系没有问题，产生的原因有两个：1、Corpora coverage，即语料库没有覆盖；2、词表大小限制，产生了unkown words。Graves等人在2014年给出了Neural Tuning Machine方法来解决这个问题，主要有两种：1、基于内容处理方法；2、基于位置的处理方法。简单理解，前者就是增加语料，后者就这通过对句子重排序（调换词之间的先后顺序）来解决这个问题，后者显然方便很多。本论文提出了三种调序模型（distortion model）来加入词的顺序关系到attention-based NMT模型中，通过实验证明这一方法可以明显提高翻译文本对齐的质量，提升翻译的精度。而且，这些调序模型可以很方便的加入到attention-based NMT模型中，通过端到端的方式来进行参数训练。
4、Modeling Source Syntax for Neural Machine Translation
Authors: Junhui Li, Deyi Xiong, Zhaopeng Tu, Muhua Zhu and Guodong Zhou
Main Content：研究表明，在机器翻译中，源语言句子的语法、句法信息对于NMT和SMT来说都非常重要，不仅可以提升翻译的质量，同时可以帮助分析翻译错误的原因；但是，诸如seq2seq这样的NMT模型并不能学习到句子当中的deep structural details。针对这个问题，本文轮尝试在encoder端加入源语言句子的结构信息，提升翻译质量。文章首先通过遍历一棵短语解析树（phrase parse tree）把一个源语言句子转换成一个句法标注向量（Syntactic Annotation Vector），然后把这个标注向量当做句子的结构信息，和句子词向量一起输入到翻译模型当中。提出了三种encoder模型来对输入进行编码，即Parallel RNN Encoder、Hierarchical RNN Encoder和Mixed RNN Encoder。Parallel RNN Encoder就是分别用一个BLSTM对句法标注向量和词向量建模。Hierarchical RNN Encoder就是先用一个BLSTM对句法向量建模，再把输出串接到一个BSLTM对句子建模。Mixed RNN Encoder结构最简单，就是把句法向量嵌入到词向量中，构成一个向量，然后再由一个BLSTM建模。通过实验证明，这种在encoder端编码句法信息的方式是很有效的，并且，最后Mixed RNN Encoder的编码方式最好。
5、Improved Neural Machine Translation with a Syntax-Aware Encoder and Decoder
Authors: Huadong Chen, Shujian Huang, David Chiang and Jiajun Chen
Main Content：本论文和上面一篇论文一样，关注在encoder端加入句子的句法和结构信息到encoder端，以提升翻译质量，只是采用的方式不一样。提出了一个由双向树结构编码器（bidirectional tree structure encoder）和一个树状收敛解码器（tree coverage decoder）组成的解码编码器框架。提出bidirectional tree encoder来代替Tai 和Eriguchi等人所设计的Bottom-up tree encoder，来对输入句子建模。通过binarized structured tree coverage model来把源语言句子的结构信息加入到模型中，并且在tree coverage decode model中添加了attention机制来进行结构控制，以提升翻译质量。
6、Sequence-to-Dependency Neural Machine Translation
Authors: Shuangzhi Wu, Dongdong Zhang, Nan Yang, Mu Li and Ming Zhou
Main Content：本论文也是在尝试把句子的结构信息加入到模型中去，与前两篇文章不同在于，作者是在decoder端操作，把目标语言句子（target sentence）的结构信息加入到decoder中。文章有三方面的突出贡献：1、Modeling dependency parsing in NMT，在decoder端有两个RNN，一个用于RNN用于解码隐向量（hidden vector），相当于传统的解码，另外一个RNN用于预测transition action，相当于对输出目标句子的结构进行建模。翻译过程中同时进行sequence action和transition action，通过transition action来指导sequence action，简单理解就是，一遍解码，一遍对源语言句子结构进行句法分析，根据分析结果指导翻译。

Session 2: Parsing/Semantic/Discourse
7、A Progressive Learning Approach to Chinese SRL Using Heterogeneous Data
Authors: Qiaolin Xia, Zhifang Sui and Baobao Chang
Main Content：本论文关注问题是如何从异构的数据中获取知识来指导中文语义角色标注。论文的最大贡献在于提出了一个渐进式的神经网络模型（progressive neural network）PNN来充分的利用异构资源的数据，并且发布了一个新的中文语义角色标注数据集Chinese SemBank。提出PNN模型适用于广泛的的NLP问题，比如实体抽取，关系分类等。
8、Discourse Mode Identification in Essays
Authors: Wei Song, Dong Wang, Ruiji Fu, Lizhen Liu, Ting Liu, Guoping Hu
Main Content：本论文研究的是一个NLP里面比较小众的问题Discourse modes of Sentece，就是句子的表达方式，如描写、抒情、描述、议论等等。本文最大的特色在于首次使用深度学习算法来判断一篇文章里面每一个句子的表达方式，给出了从特征构建，模型搭建的细节。作者把基于深度学习的句子表达方式判断用于中学生作文评分，指出句子表达方式的自动判断是可行的，句子表达方判断可以为下游的NLP应用提供支持，比如判断文章的组织结构，判断作者写作意图等。
9、Generating and Exploiting Large-scale Pseudo Training Data for Zero Pronoun Resolution
Authors: Ting Liu, Yiming Cui, Qingyu Yin, Wei-Nan Zhang, Shijin Wang and Guoping Hu
Main Content：本论文研究通过生成并使用大量的伪数据来解决NLP中的零代词消解问题（ZPR）。零代词消解问题是指，中英文对应关系中，由于中文省略了部分代词，但英文没有省略而导致指代不明的问题。比如：中文中：小明吃了一个苹果，<zp>非常甜；英文：Xiaoming eats an apple，it is very sweet。Zp代表被消解的代词，这里it到底指的是小明，还是指的是苹果并不清楚。这个问题在中文中非常常见，主要涉及两个问题：1、句子中哪里存在被消解的代词；2、被消解的代词是哪个。目前的解决办法多依赖与人工抽取的特征，这样耗时耗力，因此本文尝试采用深度学习技术来学习大量的样本，通过end-to-end的方式来解决这个问题。因此本文做了两个方面工作：1、提出通过一种<D,Q,A>(D：document，Q：query，A：Answer)的方式来构建大规模的训练样本；2、建立attention-based NN模型用于解决ZPR问题。文章指出，unknown word回填到句子中可以提升建模精度，对比实验表明基于深度学习技术的精度比目前的基于特征的方法要高。

注意：由于今年的ACL会议还没有召开，因此，本次分享会的大部分论文在网上还找不到，要等到8月份会议开完以后才会放出来。

更多深度学习在NLP方面应用的经典论文、实践经验和最新消息，欢迎关注微信公众号“深度学习与NLP”或扫描二维码添加关注。

2 0