记忆网络之Gated End-To-End Memory Networks
来源:互联网 发布:东莞制造业知乎 编辑:程序博客网 时间:2024/05/17 22:32
记忆网络之Gated End-to-End Memory Networks
今天要介绍的论文“gated end-to-end memory networks”时16年10月份发布的,他是在End-To-End Memory Networks这篇论文的基础上做了一些修改。因为End-To-End Memory Networks在multi-fact QA、 positional reasoning、 dialog等领域的效果还不是很好,所以本文参考CV领域中HighWay Networks和Residual Networks涉及到的shortcut connections,引入Gated机制,以实现对memory的正则化,从而让模型可以动态的修改memory。
因为End-To-End Memory Networks已经很熟悉了,所以我们先来介绍一下Highway Networks的想法,其主要是在网络输出下一层之前引入了一个transform gate T和一个carry Gated C,以让网络学习什么、多少信息应该被传到下一层。我们假设本层网络的输出为:y=H(x),那么就加入下面的映射函数:
往往我们会选择C = 1-T,所以上面的公式可以转化为:
而残差网络则可以视为是Highway网络的一种特例,因为其直接把T和C都当做I,所以就相当于y=H(x) + x。但是这里背后的原理我还没来得及搞明白,为什么这样就可以让更深的网络很容易就训练成功,等有时间再看看相关的论文学习下。
然后我们来看一下如何将其融入到End-To-End Memory Networks中,由于其每个hop的功能都可以视为u’=H(u),所以对应到上面的公式,u就相当于输入x,o就相当于输出y,所以代入上式得:
也就是修改一下原来模型中输出层的公式即可。然后参数W和b有全局和每个hop独立两种方式,后面实验结果证明,每个hop保持独立效果会比较好。论文的创新点倒不是很大,只不过是将两篇论文结合一下,但是看有实验效果好像还有挺大的提升。最终的模型架构图如下所示:
实验结果:
本文所提出的模型不仅仅在bAbI数据集上取得了很好的效果,而且在dialog bAbI对话数据集上也取得了很好的效果。这个数据集应该会在后面的文章中进行介绍,这里就不赘述了。这里也贴上两张实验结果的图:
第二张图揭示得是MemNN与本文提出模型各个hop对每个句子的权重计算,可以看出本文的模型更加集中在最重要的那个句子上面,而MemNN则比较分散,也说明了本文模型效果更好。
- 记忆网络之Gated End-To-End Memory Networks
- 记忆网络之End-To-End Memory Networks
- End-To-End Memory Networks
- End-To-End Memory Networks
- End-To-End Memory Networks
- 论文阅读:End-To-End Memory Networks
- End-To-End Memory Networks 论文翻译
- 记忆网络之Memory Networks
- End-to-End Memory Network
- 记忆网络之Key-Value Memory Networks
- 记忆网络之Hierarchical Memory Networks
- 记忆网络之Key-Value Memory Networks tensorflow实现
- 记忆网络之Hierarchical Memory Networks(架构分层)
- end-to-end 理解
- 记忆网络之Dynamic Memory Networks模型介绍及代码实现
- 记忆网络之Dynamic Memory Networks模型介绍及代码实现
- An End-to-End System for Unconstrained Face Verification with Deep Convolutional Neural Networks
- Towards End-to-end Text Spotting with Convolutional Recurrent Neural Networks阅读笔记
- Java之定义and启动线程
- 疯狂Activiti6.0连载(13)DMN的XML规范
- 配置单机RocektMq踩过的那些坑
- 2017.11.3总结
- CSS 继承
- 记忆网络之Gated End-To-End Memory Networks
- MySQL explain执行计划解读
- 一个简单地程序示例剖析类加载机制
- 洛谷 3932 浮游大陆的68号岛 前缀和
- bzoj5056: OI游戏
- 手把手教Redis安装
- 刷题#R10
- 阿里云ECS的1M带宽能干嘛?
- 编写服务器和客户端