论文理解(一)树形lstm
来源:互联网 发布:mysql 一周内 编辑:程序博客网 时间:2024/05/16 08:12
Long Short-Term Memory Over Tree Structures
树结构的lstm中的记忆细胞可以通过递归的过程反映多个孩子及后代的历史信息。孩子节点之间是否有交互(图一)?提供一种特定的方法考虑不同等级上的长距离交互。例如语言和图像的解析结构。
用s-lstm的记忆模块`代替递归模型中的组合层,应用在通过语义组合来理解一段文本。句子的语义并不是线性的拼接,他是有结构的。与先前的lstm比s-lstm有避免梯度消失的潜力(前者也有,因为连续自乘引起的),通过树结构对长距离交互进行建模。S-LSTM can be viewed as considering together a recursive neural network and a recurrent neural network。In brief, S-LSTM wires memory blocks in a partial-order tree structures instead of in a full-order sequence as in a chain-structured LSTM。
论文有两点贡献,s-lstm在理解语义上效果较之前的方法好,利用结构信息有助于得到更好表现。
recursive:网络是定义在递归树结构上,每一个树节点是从它的孩子计算出来的向量。叶子节点和中间节点自底向上的组合。
recurrent:不同于前馈网络,在时间上分享隐藏状态。The sequential history is summarized in a hidden vector. RNN also suffers from the decaying of gradient, or less frequently, blowing-up of gradient problem. LSTM replaces the hidden vector of a recurrent neural network with memory blocks which are equipped with gates; it can in principle keep longterm memory by training proper gating weights
尽管链式结构的lstm很有前途,但是很多有趣的问题都和输入结构有着固有的联系,那比序列结构更复杂。就如前面提到的句子语义不是简单的单词拼接。尽管序列结构可以隐含的捕捉结构信息但是缺乏声称力量(claim power)。例如在机器翻译及语音识别领域,句子倒序会引起很大的变化。不同于先前的工作,我们提出s-lstm利用结构信息可以得到更好的结果相比于忽略结构信息而言。
记忆模块包括一个输入门,一个输出门,和多个遗忘门(数量和孩子的节点数相同),本文中是给出的二叉树的结构,所以有两个遗忘门,此结构在现实生活中应该有很多应用,也可以把一般的树转化为二叉树。
x(t)的当前输入是孩子节点传入父节点的隐含值。逆向误差传递的时候要区分当前处理的节点是左孩子还是右孩子。反向传播的时候,先计算各个门的的导数,然后再计算权重的导数,做更新。
目标函数需要考虑输出结构,依赖问题规模,本文定义目标函数是最小化所有节点的交叉熵的和。
我们把模型应用在语义组合上面。先前我们处理类似的问题一般是考虑目标短语较小的片段,用词袋模型。最近的工作,就会建模来组合,这是语义生成的一种新的方法。
- 论文理解(一)树形lstm
- 论文理解(一)树形lstm
- 论文阅读-文本匹配(一) 孪生LSTM
- LSTM(一)之深入理解
- LSTM(一)
- 树形DP的一些理解(一)
- 论文理解:AlexNet(一)
- 机器学习:深入理解 LSTM 网络 (一)
- 理解LSTM网络(翻译)
- 理解LSTM
- 理解LSTM
- 理解LSTM
- LSTM理解
- LSTM理解
- LSTM理解
- 理解LSTM'
- LSTM论文翻译-《Understanding LSTM Networks》
- AlexNet学习笔记-论文翻译和理解(一)
- 五分钟搞懂Gson的用法
- 《富爸爸穷爸爸》读书笔记
- PHP中无法操作MySQL而MySQL中可以
- redis
- Queue模块
- 论文理解(一)树形lstm
- 5分钟从零搭建一个maven工程
- C动态内存分配:(三)malloc/calloc/realloc/free使用注意事项
- 编写高质量代码——Web前端开发修炼之道(一)
- Java 的 equals 和 ==
- Windows64位机使用RXTX开源包的安装和环境配置
- C++设计模式之单例模式
- Java静态属性与静态方法能否被继承的问题
- webService【一】