visualizing and understanding convolution network论文

来源:互联网 发布:数据采集仪 编辑:程序博客网 时间:2024/05/23 10:21

本文通过将feature map可视化映射到像素空间,来解释卷积网络为何表现的这么好?怎样提高卷积网络?

首先解释一下如何进行可视化的过程。

clipboard

作者在文章中给出上图,从右边的部分看,从下至上,输入上一pooling层的输出,然后卷积,relu激活,然后池化。

左边是反卷积的过程,首先反池化,然后relu(这在卷积和反卷积的过程中没有发生变化),然后是反卷积(如何反卷积下面再讨论)

反池化:

clipboard[1]

在最大池化过程中记录位置,反池化时候直接将只填到该位置,其他位置设置为0。

通过上面的可视化技术,下面可以说明一下为何卷积网络如此优秀。

clipboard[2]

从上图中可以看出第一层学习到的是比较具体的轮廓信息,没有明显的区别,越往后特征越来越复杂(从区分图片的角度讲特征越来越简单,因为抓住了关键信息,去掉了的那些没用的背景等等信息),比较第四层和第五层狗对应的特征,明显第五层更加精炼抽象。

clipboard[3]

上图解释了训练的过程中,特征是如何学习的。上图分为五个layer,从左往右训练的过程中,学习到的特征越来越清晰,而且前面的层学习到特征速度比后面层学习特征的速度快很多。第五层的特征相比于之前的特征也更加抽象。

在知道卷积网络究竟学习到什么样特征的情况下,下面就可以通过可视化技术来优化网络结构。

作者将alexent可视化,分析特征。

clipboard[4]

其中a,b是alexnet的第一层和第二层特征的可视化图。图中可以看出,第一层混合了高频和低频的信息,中频信息很少这是由于11x11卷积核太大导致,而c中特征混淆,杂乱,应该是由于步长过长导致。通过调整第一层的卷积核11x11到7x7,第二层卷积步长从4到2,特征图如b,d所示。

clipboard[5]

从上图增加的阻挡物可以看出卷积网络定位识别图像中物体的位置,并不是依赖于周围的背景。

阅读全文
0 0