视觉类比VISALOGY: Answering Visual Analogy Questions--NIPS2015
来源:互联网 发布:顺丰运单打印软件 编辑:程序博客网 时间:2024/05/24 07:05
本文是NIPS2015的一篇文章,整篇文章主要是解决一个视觉类比问题。
摘 要: 视觉类比问题非常值得研究。这个研究问题主要是:图像A类比图像B,那么图像C类比什么图像。视觉类比问题主要是深入挖掘图像A和图像B之间的映射关系,从而搜索出图像C对应的映射图像D。本文嵌入类比损失函数到深度卷积神经网络中,学习图像之间的类比关系,最后解决了自然图像之间的视觉类比问题。
引言:
图像类比就是原始图像映射到目标图像。类比的思维在人类认知科学中占有比较重要的低维。类比思维可以用认知科学的一些理论或者模型来进行解释,如共享结构,共享抽象,主题关系,蕴含推演等。最常见类比信息是找到一种映射,可以使原始信息按照一定的规则映射到目标信息。这种处理方法非常像美国本科入学考试的一种题:A相对B,那么C相对什么?
本文,我们主要解决图像的类比问答问题。假设这儿有三张图像,分别为
我们的目标就是,给定一些训练相同类比关系的图像训练集,通过样本赋予机器自动挖掘图像的类比关系,从而得到一个图像类比机器。如图1所示就是一个简单图像类比器。
图1 图像类比器
可以从图中看出,一个棕熊类比了一个白熊,可以看出,这个类比是颜色上的变化,那么一只棕色狗利用这个类比关系得到什么样的答案呢,那么我们从图1中间行的图像进行搜索,我们可以从图1最后一排的结果排序答案看出,这只棕色狗类比了最好的是白色狗。
从图1的结果可以看出,这个研究是非常有意思的。我们提出利用类比函数来学习这个类比关系,让相似的类比更加接近。特别的我们在卷积神经网络中(如图2所示)嵌入了一个类比函数,能让图像得到的特征在空间中转化。因此我们只需要加入类比损失函数来对卷积神经网络的最后一层输出进行fine-tune,这个类比函数就是为了使相同的类比更加接近,不相似的类比更加远。我们使用标准的CNNs训练图像的分类网络。训练数据集包含自然图像和人工图像。我们的评价采用不同数目的错误答案和正确答案来对我们的网络进行测试。
在本文中,我们研究了图像类比问答问题,旨在生成图像类比问答器。我们的方法通过学习类比函数来学习图像之间的类比映射关系。我们对自然图像的属性和行为进行标定来训练这个视觉问答系统(Visual Analogy Question Answering,VAQA)。同时我们对3D凳子设计了一个VAQA系统,这些3D凳子包含了不同的风格和视角。结果表明了我们的算法能够很好解决了VAQA问题。
2.提出的方法
我们提出一个视觉类比问答问题—
2.1类比卷积神经网络
训练一个类比卷积神经网络,我们需要输入四张图像
其中
整个网络如图2所示。
图2 类比卷积神经网络,每一个网络都共享参数
我们计算特征转换向量x,我们利用了图2中的卷积神经网络框架。每一张图像通过卷积神经网络前馈得到图像特征,这个卷积神经网络的参数都是一样的。类别y代表了我们输入的四张图像是否构成类比关系。
- 视觉类比VISALOGY: Answering Visual Analogy Questions--NIPS2015
- 视觉问答(Visual Question Answering)论文初步整理
- 论证是一门学问 如何让你的观点有说服力-12 类比论证 Arguments by Analogy
- Visual Attribute Transfer through Deep Image Analogy论文阅读笔记
- (reading)Revisiting Visual Question Answering Baselines
- Hierarchical Question-Image Co-Attention for Visual Question Answering
- Hierarchical Question-Image Co-Attention for Visual Question Answering
- Dynamic Memory Networks for Visual and Textual Question Answering
- Visual C++ .NET 2003 Frequently Asked Questions
- 论文笔记 :Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding
- 阅读笔记(Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding)
- Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding
- [资源贴]NIPS2015下载地址
- Paper Reading - Snap and ask: Answering Multimodal Question by Naming Visual Instance
- 论文笔记: Hierarchical Question-Image Co-Attention for Visual Question Answering
- Ask Me Anything:Free-form Visual Question Answering Based on Knowledge from External Sources
- ABC-CNN: An Attention Based Convolutional Neural Network for Visual Question Answering
- Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for Visual Question Answering
- Java并发包Concurrent下Callable和Future实战
- 如何找出数组中重复次数最多的数
- python 模拟126邮箱发送邮件
- 认清MVC,MVP和MVVM
- Ubuntu下解决boot空间不足的方法
- 视觉类比VISALOGY: Answering Visual Analogy Questions--NIPS2015
- Python 简易网络爬虫的编写——抓取任意页面数目百度百科内容
- 响应的系统设置事件
- android自定义控件,动态设置Button的样式
- 【程序人生】:进入职场时该如何摒弃学生思维
- View 事件传递机制
- C++笔记之关键字explicit
- css动画效果回调处理
- I - 最少拦截系统——HOJ LCS