(reading)Revisiting Visual Question Answering Baselines

来源:互联网 发布:产品经理数据分析手册 编辑:程序博客网 时间:2024/05/14 09:10

阅读后收获:对于VQA,使用MLP model,将I-Q-A作为输入做caption效果要好于以I-A作为输入,将I-A作为输入做caption效果要好于以Q-A作为输入,将Q-A作为输入做caption效果要好于以A作为输入,但是仅仅以A作为输入,在Visual7W telling task中就可以达到50.7%的准确性,说明了仅仅学习A分布的bias就可以取得不错的效果。另外结合不断填充扩大的Knowledge source,效果会进一步的提升,另外,通过iterative query去获取task-driven的信息,可以大大提高学习效果。

阅读全文
0 0
原创粉丝点击