LearningSequences: image caption with region-based attention and scene factorization
来源:互联网 发布:2017年建筑业发展数据 编辑:程序博客网 时间:2024/06/03 14:59
这是清华张长水老师实验室的一篇文章,关于image caption
小编自己感觉,本文主要的工作就是在于:让视觉转移信息引导单词序列,加入场景信息保证句子的丰富性。
具体流程:首先将图像做分割,分成尺度不同的patch,然后从中挑选出好的patch作为备选,然后将每个patch送入CNN中,学习得到patch的特征,将特征送入LSTM。此时再将场景信息加入,共同生成一个句子。接下来,我们将一步一步的分析流程。
1)分割。 者利用一个selective search技术,现根据颜色和纹理进行分割,然后通过融合邻域信息进行分层分割,最后选择好的区域留下。选择时有三个原则:语义信息要比较强、区域要比较原始、上下文信息要比较丰富。于是可以训练一个分类器来学习区域的好坏,并对其进行分类,选出最好的30个,将其resize为224*224,放进一个16层的VGG-Net去得到图像特征。
2)ht是叫做“abstract meaning”,掌握着概念的转移。当在生成单词序列的时候,它以单词的标准编码。当在生成视觉信息时,会以视觉信息的标准编码。
wt是生成的单词,vt是输入的视觉元素。首先计算一下下一个视觉的Focus元素:
从公式中可以看出是先根据前一个时刻t-1的单词wt-1,前一时刻的状态ht-1和前一时刻的视觉元素vt-1来计算当前时刻t focus在ri(是指第i个patch的特征)区域上的概率pit,然后加权求和得到vt。得到vt后,再根据下面的公式求出w
3)加入场景信息。比如同样是人牵着小狗走,若走在湖边上,则标题为人牵着小狗在锻炼;若在宠物店,则可能标题变为主人在宠物店为小狗美容,所以场景信息非常重要。
第一步先对场景库里的场景进行无监督聚类,然后利用LDA(潜在的狄利克雷分布)对输入场景归类。得到场景信息S,对其进行矩阵分解:
将得到的W矩阵加入到ht-1中,然后一起输入LSTM,最后就得到了一个语义信息比较多结构又简单的图像描述。
- LearningSequences: image caption with region-based attention and scene factorization
- 论文笔记:Aligning where to see and what to tell: image caption with region-based attention ...
- [深度学习论文笔记][Attention]Show, Attend, and Tell: Neural Image Caption Generation with Visual Attention
- Show, Attend and Tell: Neural Image Caption Generation with Visual Attention
- 论文阅读:Neural Image Caption Generation with Visual Attention
- 加入attention机制的image caption问题
- Region Filling and Object Removal by Exemplar-Based Image Inpainting-code-2004
- Region Filling and Object Removal by Exemplar-Based Image Inpainting-code-2004(代码改进)
- Region-based Discriminative feature pooling for scene text recognition (CVPR14)
- 论文笔记:Image Captioning with Semantic Attention
- image captioning-Show and Tell: A Neural Image Caption Generator
- 论文笔记:A Model of Saliency-Based Visual Attention for Rapid Scene Analysis
- 显著性检测(三)A Model of Saliency-Based Visual Attention for Rapid Scene Analysis
- 【论文阅读】Neural Language Correction with Character-Based Attention
- Single Image Dehazing Algorithm Based on Sky Region Segmentation(2013)
- 读书笔记--《Show and Tell: A Neural Image Caption Generator》
- Training Region-based Object Detectors with Online Hard Example Mining
- Training Region-based Object Detectors with Online Hard Example Mining
- 【Head First设计模式-读书笔记】策略模式
- 在 Lua 里 使用 Cocos Studio 导出的 .csb 文件
- Machine Learning week 4 quiz: Neural Networks: Representation
- java+内存分配及变量存储位置的区别
- 【转】轻松记住大端小端的含义(附对大端和小端的解释)
- LearningSequences: image caption with region-based attention and scene factorization
- PFILE和SPFILE介绍
- cf424(A,B,C)
- hadoop文件输出为txt格式
- Android基础入门教程——10.12 传感器专题(3)——加速度-陀螺仪传感器
- 【总结】【Unix网络编程】前言及基础知识
- 根据路径读取文件 (struts2/se)
- 从0开始使用swfupload详细介绍
- 单点登录