【论文笔记】Adversarial Multi-task Learning for Text Classification
来源:互联网 发布:飞鱼网络直播 编辑:程序博客网 时间:2024/06/06 18:12
一、概要
该文章发于ACL 2017,针对于已有的大多数神经网络多任务学习模型进行文本分类,存在的共享特征(shared features)可能再次包含特定任务特征(task-specific features)或者含有来自其他任务带来的噪声问题,作者提出了一个对抗多任务学习模型,缓解了共享特征空间和特定任务特征空间相互干扰的问题,作者在16个任务上进行实验证明其模型的有效性,并且实验结果表明模型的共享特征学习到的知识可以很好地用在新任务上。
二、模型方法
2.1 Adversarial Shared-Private Model
如概要所述,针对于已有的神经网络多任务学习的方法可能存在共享和私有特征相互包含的问题,作者提出了对抗多任务学习模型。如上图所示,(b)表示本文方法,存在两个任务,其中蓝色的正方形和三角形表示特定任务的私有特征领域,用来捕捉特定任务的特征,重叠的红色圆圈表示共享的特征领域,其用来捕获不同任务间存在的共同特征。
本文通过使用对抗训练来保证共享空间仅包含多任务的共享信息,以及使用正交约束来消除共享空间和私有空间之间的冗余信息。
2.2 Recurrent Models for Text Classification
本文使用Long Short-term Memory(LSTM)模型进行文本分类,关于LSTM模型可见【Deep Learning】LSTM(Long Short-Term Memory)及变体。对于一个给定的句子x = {
其中
2.3 Multi-task Learning for Text Classification
多任务学习的目标是通过多个任务并行学习到它们的相关性来提高分类的准确性;假设第k个任务中存在
其中
如上图所示,多任务学习有两种结构,分别为Fully-Shared Model (FS-MTL)和Shared-Private Model (SP-MTL),假设存在两个任务m和n,那么:
①FS-MTL仅使用单LSTM对所有的任务进行特征提取,然后将提取到的特征分别传入对应任务的sorfmax层进行分类;
SP-MTL使用了两种特征学习方法,一种是所有任务共享的特征,一种是特定任务独立的特征,均使用LSTM进行特征提取,对应任务k,共享特征与私有特征可以表示为:
最后的特征是将共享特征与私有特征组合,对于任务k,将最终特征
2.4 Incorporating Adversarial Training
这里使用到了GAN的思想,关于GAN可以查看网上的一些资料,比如机器之心的GAN完整理论推导与实现,这里主要是使用一个sorfmax层作为判别器(Discriminator),共享特征提取的LSTM作为生成器(Generator),判别器是判断提取到的特征来自于哪个任务,即:
那么Adversarial Loss
其中
Orthogonality Constraints,为了消除共享空间与各任务私有空间的干扰,保持其独立性,因而对共享特征和私有特征进行正交约束,即:
所以最终的损失函数为:
其中λ和
三、实验结果
3.1 实验数据集
3.2 Competitor Methods for Multi-task Learning
其中MT-CNN模型是由Colbert和Weston(2008)提出使用卷积神经网络的模型,只有lookup层共享,其他层则是特定任务私有。MT-DNN:该模型由Liu等人提出(2015),其中包含词袋输入和多层感知器,隐藏层是共享的。
3.3 Shared Knowledge Transfer
其中存在两种知识迁移的方法,如下图,黄色方框表示来自其他15个任务训练得到的共享特征提取器。
3.4 Visualization
四、结论与思考
本文提出了一个对抗多任务学习模型,缓解了共享特征空间和特定任务特征空间相互干扰的问题,并在16个任务上进行实验证明其模型的有效性,以及通过进行广泛的定性分析,间接证明了模型有效性的提升。
五、个人思考
①首先是最近GAN及强化学习真是被大家玩得火热,通过寻求合适应用场景下使用深度强化学习,本文正是基于此提出了一个较为新颖的模型,并证明其方法的有效性。
②本文的模型在特征提取模块仅使用了LSTM进行特征提取,所以可以进一步加强模型的复杂度,多任务学习与模型融合在一定程度上是不是相似的呢?是否具有普适性?尽管多任务学习最近也非常火热。
参考文献
①Pengfei Liu,Xipeng Qiu,Xuanjing Huang.Adversarial Multi-task Learning for Text Classification
②代码链接:http://pfliu.com/#Publications
③数据集:http://nlp.fudan.edu.cn/data/
- 【论文笔记】Adversarial Multi-task Learning for Text Classification
- Learning k for kNN Classification--论文笔记
- 【论文笔记】HyperFace: ADeep Multi-task Learning Framework for Face Detection
- 【论文阅读笔记】A Multi-Task Learning Formulation for Predicting Disease Progression
- 论文笔记《HyperFace: A Deep Multi-task Learning Framework ...》
- 论文浅尝 | Reinforcement Learning for Relation Classification
- [ACL2017]Adversarial Multi-Criteria Learning for Chinese Word Segmentation
- 论文笔记 | CNN-RNN:A Unified Framework for Multi-label Image Classification
- 【论文阅读笔记】MULTI-SCALE DENSE NETWORKS FOR RESOURCE EFFICIENT IMAGE CLASSIFICATION
- 【论文笔记】Deep Structured Output Learning for Unconstrained Text Recognition
- 论文引介 | Adversarial Learning for Neural Dialogue Generation
- 论文引介 | Adversarial Learning for Neural Dialogue Generation
- 笔记-论文-PCANet A Simple Deep Learning Baseline for Image Classification?
- 论文笔记 A Large Contextual Dataset for Classification,Detection and Counting of Cars with Deep Learning
- [深度学习论文笔记][Image Classification] Deep Residual Learning for Image Recognition
- [深度学习论文笔记][Scene Classification] Learning Deep Features for Scene Recognition using Places Database
- [深度学习论文笔记][Video Classification] Delving Deeper into Convolutional Networks for Learning Video Repre
- Machine Learning - Neural Networks for Multi-class Classification
- 字符串的使用和注意点及西大OJ20解答
- 操作系统模拟公交车司机与售票员进程之间的协同关系
- 网狐2003转2013遇到的坑集合
- 信仰
- 时间转换
- 【论文笔记】Adversarial Multi-task Learning for Text Classification
- Javascript异常(exception)处理机制详解 JS、异常Error属性
- Deeplearning4j的本机CPU优化
- 《程序员的成长课》有奖征文
- eclipse安装JAVA反编译插件
- centos 安装 MySQL-python
- Linux下Redis 安装使用
- leetcode 600. Non-negative Integers without Consecutive Ones 非负整数不包括连续的1 + DP动态规划
- python 获取目录下文件(转)