attention model

来源:互联网 发布:经销商车销软件 编辑:程序博客网 时间:2024/05/23 01:11

先看下之前用CNN+RNN做Captioning的model,图片经过CNN(包括CONV和FC)后的feature输入到RNN的入口处(RNN仅此一次使用到图片信息),然后用training data中包含的对应的文字信息求出vocabulary的分布,如此即可计算loss来进行training



上面的这个方法有些缺陷,我们希望

1. RNN能多次看图片的信息

2. 每次能focus图片的不同部分


这就有了Attention Model

这时使用的是结果Conv后的特征,因为这时的特征还包含了空间的信息,如果结果fc展开后就失去了空间信息

而且这时候还要计算的是Distribution over L location,及在空间中的分布信息,说白了,就是当前这个word注意的是图片的哪个部分,通过与卷积层的feature进行运算后也作为RNN的输入


而且哪个word注意图片的哪一部分是自己学到的,是unsupervised(training data没有具体标明哪个word应该注意哪个图片part)


Attention还可以用在机器翻译,视频处理等多个领域‘




原创粉丝点击