memory network 论文翻译

来源：互联网发布：淘宝推荐理由怎么写编辑：程序博客网时间：2024/04/28 13:44

摘要

Memory Networks 通过结合长时记忆模块和推断模块联合工作来进行推理。长时记忆模块可以进行读写，也为了用来预测。我们是为了问答系统来研究这个模型，长时记忆模块正作为问答系统的（类似内存的）知识库。

问题引出

现在的RNN记忆能力不行，本文解决这个问题。核心思想是弄一个读写的内存组件。

Memory Networks基本框架

一个Memory Networks包括一个内存m(也就是一个对象的数组，每个是来表示)
以及4个会被训练的组件 I G O R：
I : (输入特征映射)–把输入转变成内部的特征表示
G : (生成)–在新的输入来了的时候更新旧的内存
O : (输出特征映射) – 给定新的输入和现在的内存状态，在特征表示空间产生新的输出
R : (回馈结果) – 把输出转化为想要的格式，比如文本或者动作Action

给一个输入x，x可以是字，词，句子，图像，声音。然后：
1，把x转成内部特征表示I(x)
2，更新，给定I(x)
3，计算输出特征o，给定输入和内存
4，最后解码输出特征o 为想要的输出
以上1-4的过程在训练和测试的时候差不多，但是测试的时候 I G O R 没有更新

I 部件：把文本转换成稀疏或者密集特征向量
G部件：G最简单的形式是把I(x)存储到内存的格子里，即：

这里H(x)是选择内存哪个格子的函数，可见H(x)在m的右下角index的位置。G更新m的index即H(x)，但是内存的其他部分没有动。更加复杂的G可以更新以前的内存。如果输入的字母或者单词可以group成chunk，那么可以将每个chunk存在一个内存的格子里。