visualizing and understanding convolution network论文

来源：互联网发布：数据采集仪编辑：程序博客网时间：2024/05/23 10:21

本文通过将feature map可视化映射到像素空间，来解释卷积网络为何表现的这么好？怎样提高卷积网络？

首先解释一下如何进行可视化的过程。

clipboard

作者在文章中给出上图，从右边的部分看，从下至上，输入上一pooling层的输出，然后卷积，relu激活，然后池化。

左边是反卷积的过程，首先反池化，然后relu（这在卷积和反卷积的过程中没有发生变化），然后是反卷积（如何反卷积下面再讨论）

反池化：

clipboard[1]

在最大池化过程中记录位置，反池化时候直接将只填到该位置，其他位置设置为0。

通过上面的可视化技术，下面可以说明一下为何卷积网络如此优秀。

clipboard[2]

从上图中可以看出第一层学习到的是比较具体的轮廓信息，没有明显的区别，越往后特征越来越复杂（从区分图片的角度讲特征越来越简单，因为抓住了关键信息，去掉了的那些没用的背景等等信息），比较第四层和第五层狗对应的特征，明显第五层更加精炼抽象。

clipboard[3]

上图解释了训练的过程中，特征是如何学习的。上图分为五个layer，从左往右训练的过程中，学习到的特征越来越清晰，而且前面的层学习到特征速度比后面层学习特征的速度快很多。第五层的特征相比于之前的特征也更加抽象。

在知道卷积网络究竟学习到什么样特征的情况下，下面就可以通过可视化技术来优化网络结构。

作者将alexent可视化，分析特征。

clipboard[4]

其中a，b是alexnet的第一层和第二层特征的可视化图。图中可以看出，第一层混合了高频和低频的信息，中频信息很少这是由于11x11卷积核太大导致，而c中特征混淆，杂乱，应该是由于步长过长导致。通过调整第一层的卷积核11x11到7x7，第二层卷积步长从4到2，特征图如b，d所示。

clipboard[5]

从上图增加的阻挡物可以看出卷积网络定位识别图像中物体的位置，并不是依赖于周围的背景。

阅读全文

0 0