(reading)Revisiting Visual Question Answering Baselines

来源：互联网发布：产品经理数据分析手册编辑：程序博客网时间：2024/05/14 09:10

阅读后收获：对于VQA，使用MLP model，将I-Q-A作为输入做caption效果要好于以I-A作为输入，将I-A作为输入做caption效果要好于以Q-A作为输入，将Q-A作为输入做caption效果要好于以A作为输入，但是仅仅以A作为输入，在Visual7W telling task中就可以达到50.7%的准确性，说明了仅仅学习A分布的bias就可以取得不错的效果。另外结合不断填充扩大的Knowledge source，效果会进一步的提升，另外，通过iterative query去获取task-driven的信息，可以大大提高学习效果。

阅读全文

0 0

(reading)Revisiting Visual Question Answering Baselines
Paper Reading - Snap and ask: Answering Multimodal Question by Naming Visual Instance
#Paper Reading# Summarizing Answers in Non-Factoid Community Question-Answering
Hierarchical Question-Image Co-Attention for Visual Question Answering
Hierarchical Question-Image Co-Attention for Visual Question Answering
视觉问答（Visual Question Answering）论文初步整理
Dynamic Memory Networks for Visual and Textual Question Answering
论文笔记: Hierarchical Question-Image Co-Attention for Visual Question Answering
Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for Visual Question Answering
READING NOTE: Wider or Deeper: Revisiting the ResNet Model for Visual Recognition
论文笔记：Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding
阅读笔记（Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding)
Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding
Ask Me Anything:Free-form Visual Question Answering Based on Knowledge from External Sources
ABC-CNN: An Attention Based Convolutional Neural Network for Visual Question Answering
论文笔记：Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering
hdu4096Universal Question Answering System(乱搞)
Stacked Attention Networks for Image Question Answering
ppt 2010 动画窗格组合元素使用方法
register_chrdev_region函数解析
n log n的最长上升子序列
抽象关键字abstract与final使用
android之频道管理
(reading)Revisiting Visual Question Answering Baselines
win10系统快捷键小结
Java中的序列化Seriazable
libCoAP的源码以及实现
Struts基本配置文件
Vue入门（一）-Vue实现选项卡效果
阿里笔试题
面试总结（1）
ccf 201609-2 火车购票（只有90分）