论文笔记：Learning Deep Features for Discriminative Localization

来源：互联网发布：淘宝如何做全屏店招编辑：程序博客网时间：2024/06/04 22:34

目的：实现弱监督的特征定位。
使用方法：使用global average pooling的一般分类网络。
最后结果：使用googlenet-GAP弱监督网络可以达到全监督Alexnet的定位水平。并能实现良好的扩展。
这里写图片描述

1.Abstract

本文revisit了GAP方法。将它用在定位分类上，发现这个方法保留了部分定位信息，而且在ILSVRC2014上能达到37.1%的top5错误率。

introduction

在分类CNN中，一般使用全连接层（fc）作为最后的层次，但是fc有一些致命的缺点：

80%~90%的参数量在fc上。
容易过拟合
要求输入和输出的矩阵的大小保持fixed，很不方便。
随着fc的使用，localization的信息也丢失了。

GAP的优点便突出了出来，它使用feature map的平均值作为最后一层，通过softmax便可实现分类，对应的来说，由于没有了全连接层，也就没有了参数，同时没有了过拟合的问题。后面讲详细谈。

简而言之，要么需要严格的定位label，要么不是端到端的系统，需要多次forward才行。还有一种global max pooling，这个方法在分类上结果和global average pooling一致，但是在定位问题上还是GAP能够找到更合适的边界（这里其实可以理解一种降维方案，其实不一定需要使用简单的统计量，可以使用某种序列作为分类信息可能更好，一种想法待实现）

class activation mapping

这里写图片描述

数学问题不多说了，很简单。这里简单描述一下：
分类区域中使用GAP代替了fc，意思是通过多次卷积最后会得到一组分辨率更小的特征图，对所有的特征图进行上采样到输入图像的大小得到feature map，对每个feature map求平均值，得到一个数值序列，再用分类器对这个序列进行全职的分配，便可以做到分类的过程。

定位的区域是在分类的基础上做的，由于某种神奇的原因，GAP得到的平均值可以很好地代表源特征图谱，所以对应的权值也可以继承给源特征图谱。通过简单的权值相乘相加，就可以得到对应的定位的热力图。这就是CAM。

result

这里写图片描述

可以看到googlenet-gap可以做到分类错误率无差，定位到达全监督水平

阅读全文

0 0

论文笔记：Learning Deep Features for Discriminative Localization

1.Abstract

introduction

related work

class activation mapping

result