论文笔记:Learning Deep Features for Discriminative Localization

来源:互联网 发布:淘宝如何做全屏店招 编辑:程序博客网 时间:2024/06/04 22:34

目的:实现弱监督的特征定位。
使用方法:使用global average pooling的一般分类网络。
最后结果:使用googlenet-GAP弱监督网络可以达到全监督Alexnet的定位水平。并能实现良好的扩展。
这里写图片描述

1.Abstract

本文revisit了GAP方法。将它用在定位分类上,发现这个方法保留了部分定位信息,而且在ILSVRC2014上能达到37.1%的top5错误率。

introduction

在分类CNN中,一般使用全连接层(fc)作为最后的层次,但是fc有一些致命的缺点:

  1. 80%~90%的参数量在fc上。
  2. 容易过拟合
  3. 要求输入和输出的矩阵的大小保持fixed,很不方便。
  4. 随着fc的使用,localization的信息也丢失了。

GAP的优点便突出了出来,它使用feature map的平均值作为最后一层,通过softmax便可实现分类,对应的来说,由于没有了全连接层,也就没有了参数,同时没有了过拟合的问题。后面讲详细谈。

简而言之,要么需要严格的定位label,要么不是端到端的系统,需要多次forward才行。还有一种global max pooling,这个方法在分类上结果和global average pooling一致,但是在定位问题上还是GAP能够找到更合适的边界(这里其实可以理解一种降维方案,其实不一定需要使用简单的统计量,可以使用某种序列作为分类信息可能更好,一种想法待实现

class activation mapping

这里写图片描述

数学问题不多说了,很简单。这里简单描述一下:
分类区域中使用GAP代替了fc,意思是通过多次卷积最后会得到一组分辨率更小的特征图,对所有的特征图进行上采样到输入图像的大小得到feature map,对每个feature map求平均值,得到一个数值序列,再用分类器对这个序列进行全职的分配,便可以做到分类的过程。

定位的区域是在分类的基础上做的,由于某种神奇的原因,GAP得到的平均值可以很好地代表源特征图谱,所以对应的权值也可以继承给源特征图谱。通过简单的权值相乘相加,就可以得到对应的定位的热力图。这就是CAM。

result

这里写图片描述
这里写图片描述
这里写图片描述

可以看到googlenet-gap可以做到分类错误率无差,定位到达全监督水平

阅读全文
0 0
原创粉丝点击