Deep Visual-Semantic Alignments for Generating Image Descriptions总结
来源:互联网 发布:手机端淘宝详情页高度 编辑:程序博客网 时间:2024/06/16 18:23
Deep Visual-Semantic Alignments for Generating Image Descriptions 2015 CVPR Li Fei-Fei的工作,利用深度图文对照嵌入,去实现对图像的描述,文章的最终目标是生成对图像局部的描述,模型主要分为两个部分,第一部分,通过一个多通道嵌入,将句子片段与图像局部区域对应起来,第二部分用上边得到的数据作为训练数据,使用一个多通道的RNN模型来生成图像的描述。
第一部分
通过观察发现人们在写字的时候会频繁的涉及到图像中那些特殊的但是不知道具体位置的目标,我们希望找出这种潜在的关系,该部分分为四个阶段:1.图像表示。2.文本表示。3.图文对应(单词)。4.短语与图片对应。
1.图像表示
该过程使用RCNN(Region Convolutional Neural Network),对图像做目标检测,将检测出来的前19项加上原图,组合起来对图像进行表示
补充:该步骤中用到了RCNN,这是最早提出的一种用深度进行目标检测的方法,具体过程如下,首先输入一张图片,通过selective search获得约2K个proposal(也就是candidate object locations),之后对图像进行伸缩变换,把图像变为固定尺寸的照片,之后把固定尺寸之后的图片传入CNN网络中进行提取特征等操作,之后使用SVM分类器进行分类。但是处理参数巨大,有重复计算,目前已经有更优秀的改进方法
1.句子表示
为了建立模型间的内在联系,考虑将句子也在h维空间中表示,该过程使用了一种叫做BRNN(Bidirectional Recurrent Neural Network)的结构,该结构在多用于处理文本,一个RNN从左向右扫描,一个RNN从油向左扫描,保证了文本的past和future都被考虑进去,与上下文相关。
1.从单词到短语
相邻单词之间存在必然的二元交互作用,使他们趋于表示同一个区域,用马尔科夫场表示这种单词与图像区域的潜在关系,aj表示 单词i与趋于1,2.....M区域的潜在关系。控制短语的长度。最后就得到了短语和图像区域的对应。
第二部分图像描述
这部分就是使用的传统的RNN框架
在第一次迭代的时候输入原图和开始标志, 输出单词的可能概率,已经结束标志。
通过实验分析可以看出,该模型在图文对应阶段有很好的效果,在图片描述阶段,分两部分,在表述整体图像的时候,结果不如专门做图像整体描述的模型LRCN和Google NIC,但相差不大。在图像局部描述部分,就有比较大的优势。
- Deep Visual-Semantic Alignments for Generating Image Descriptions总结
- Deep Visual-Semantic Alignments for Generating Image Descriptions
- Deep Visual-Semantic Alignments for Generating Image Descriptions摘要
- (reading)Deep Visual-Semantic Alignments for Generating Image Descriptions
- Deep Visual-Semantic Alignments for Generating Image Descriptions 翻译
- Deep Visual-Semantic Alignments for Generating Image Descriptions从环境配置到得出结果Chapter1
- Deep Visual-Semantic Alignments for Generating Image Descriptions从环境配置到得出结果Chapter2
- Deep Visual-Semantic Alignments for Generating Image Descriptions从环境配置到得出结果Chapter3
- 【论文笔记】Deep Visual-Semantic Alignments for Generating Image Description
- [深度学习论文笔记][Image to Sentence Generation] Deep Visual-Semantic Alignments for Generating Image Descri
- 语义分割--Learning Object Interactions and Descriptions for Semantic Image Segmentation
- 语义分割--Deep Dual Learning for Semantic Image Segmentation
- Deep Convolutional Nets for Semantic Image Segmentation with Deep Gaussian CRFs
- Learning Deep Representations of Fine-Grained Visual Descriptions
- Convolutional Networks for Image Semantic Segmentation
- Convolutional Networks for Image Semantic Segmentation
- 【deeplab】Semantic Image Segmentation with Deep Convolutional Nets and Fully
- deep learning for image compression
- JavaScript面试总结
- nginx+uwsgi+django 搭建web
- 基于引导滤波的暗通道优先去雾算法
- 前端面试宝典(一)
- 【VS开发】【计算机视觉】OpenCV读写xml文件《C版本》
- Deep Visual-Semantic Alignments for Generating Image Descriptions总结
- 密钥加载的使用 PKCS8EncodedKeySpec 使用说明
- Java文件上传到FTP
- IOS开发-AFNetWorking NSParameterAssert(URLString)为空
- Elasticsearch、logstash、Kibana的部署文档
- events.js:141 throw er; 解决办法
- Android 快速实现微信支付(真的!很快!)
- C#中Regex.Replace 方法的使用
- RabbitMQ入门教程之二--》spring+rabbitmq简单demo