论文阅读-文本匹配(一) 孪生LSTM

来源:互联网 发布:gn数据 编辑:程序博客网 时间:2024/06/05 05:47

版权声明:本文为博主原创文章,未经博主允许不得转载。禁止抄袭。

由于作者资历尚浅,有理解错误的地方欢迎大家指正和交流。


论文简介

论文题目: Siamese Recurrent Architectures for Learning Sentence Similarity

论文地址:https://www.aaai.org/ocs/index.php/AAAI/AAAI16/paper/view/12195/12023

作者:Jonas Mueller,Aditya Thyagarajan

作者单位:Massachusetts Institute of Technology(MIT CSAIL)、M. S. Ramaiah Institute of Technology(印度 MSRIT)

出版单位:the Association for the Advance of Artificial Intelligence(AAAI

发表时间:2016.2


模型图



贡献点:

1.提出新的度量方式(基于曼哈顿距离,见细节2)。优于欧几里得距离(梯度消失)、余弦相似度。【回归

2.通过明确的指导(距离),使用简单LSTM能够建模复杂的语义。

3.使用MaLSTM features输入给SVM来进行分类。【分类


实验数据:

1.The SICK data set (10k条): http://clic.cimec.unitn.it/composes/sick.html

- sentence_A: sentence A
- sentence_B: sentence B
- entailment_label: textual entailment gold label (NEUTRAL, ENTAILMENT, or CONTRADICTION)
- relatedness_score: semantic relatedness gold score (on a 1-5 continuous scale)

1.1 回归问题,得分在1-5

1.2 分类问题,三类【entailment, contradiction, or neutral】


细节:

1.LSTM(a)和LSTM(b)权重设置一样(tied weights、主题一样)。在信息检索(IR)等其他应用场景可设置不一样(untied weights)。

2.度量方式使用基于曼哈顿距离d的dis=e^(-d),由于得分在1-5,因此做了dis*4.0+1.0的处理。简单的度量方式,让句子表示更好地表达复杂的语义关系。

3.LOSS函数使用MSE。训练使用BPTT。

4.词向量预训练(实验数据只有10k条),利用同义词扩充来数据增强

5.input维度(300维)、hidden维度(50维)





原创粉丝点击