注意力模型

来源:互联网 发布:勇士雷霆第五场数据 编辑:程序博客网 时间:2024/04/29 14:22
  1. RNN原理理解
  2. 注意力模型初见
  3. 注意力模型的思考

1.RNN原理理解

前面曾写过两篇文章,详细讲解了RNN的原理:循环神经网络(RNN)原理通俗解释,以及它的高级版本LSTM:循环神经网络(RNN)之LSTM
这里写图片描述
这是它的原理图,你会发现,t1,t,t+1,其实是一个连接着的序列,比如时间,或者语言。也就是说,RNN对于序列到序列的学习比较擅长。所以本篇文章会详细介绍RNN在NLP上的应用。

2.注意力模型初见

注意力模型是个什么东西呢?这篇论文值得一看
这里写图片描述
如图,你会发现在左边第一张图中,文本在描述一个女人在扔__什么的时候,被扔的这个东西在第二张图中被标为高亮,这就是所谓注意力。它会查找图中的相应区域,然后在句子中完成填空。

3.注意力模型的思考

在这篇文章中循环神经网络(RNN),我简单得提过了看图说话,但很多人发现这样的结构,训练出来的模型效果不是很好,因此就有很多人就针对它的缺点进行改进。

改进:在看图说话中,我们的图像数据只在第一次训练的时候给模型看了一下,相当于让模型记住这些数据。这就相当于我们平时考试的时候,是闭卷考试一样,既然有闭卷,那就肯定有开卷考试嘛,所以注意力模型就想能不能每次训练都可以把图像数据给模型,就像我们考试的时候,用到什么知识,就自己在课本里找一样。

但同时,也带来了一个问题,就是模型应该怎么查找呢?

1.首先,我们需要一个模型把图像的特征抽取出来是吧,在论文中,作者用的是VGG的CNN来抽取特征的,而且,是在卷积层抽取的,LXD。
其中L是14X14的feature map,D表示有多少个feature map的厚度,有多少个feature map.

不同的滑动窗口给不同的权重,就更能体现注意力。
14X14=196,把每个feature map展开,就可以变成1X196的向量,他们代表图像中的不同位置,为了聚焦到某一位置,是不是可以用sofemax来生成一个196X1的概率向量,权值越大,说明越聚焦在那个地方。

每个cell:有两个softmax,一个用来产出一个196X1的概率向量给图像看当前位置应该聚焦在哪里,一个softmax用来产出下一个词出现的概率。
这里写图片描述

阅读全文
0 0
原创粉丝点击