论文笔记：Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding

来源：互联网发布：剑三小八捏脸数据编辑：程序博客网时间：2024/04/30 04:14

Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding

AkiraFukui*1,2 DongHukPark*1 DaylenYang*1 AnnaRohrbach*1,3 TrevorDarrell1 MarcusRohrbach1 1UC Berkeley EECS, CA, United States 2Sony Corp., Tokyo, Japan 3Max Planck Institute for Informatics, Saarbr¨ucken, Germany

arXiv:1606.01847v2 [cs.CV] 23 Jun 2016

摘要：

近年来对从大规模语言或者可视化数据集中训练针对针对文本或者可视化信息的向量表征建模取得成功。

然而VQA要求‘融合’这些向量表征，关于多模态池化的途径包括：点积，相加和链接。

本文假定以上方法不如外积有效的表征，然而外积由于维度太高一般实际上不可行。

本文提出MCB(Multimodal Compact Bilinear)来有效表征多模态组合。

本人提出一种两次使用MCB的架构，一次在空间特征的预测注意力中，一次在融合'注意力表征'和'问题表征'中

0 0

论文笔记 ：Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding

论文笔记：Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding