空洞卷积与DeeplabV2实现图像语义分割的测试（tensorflow)

来源：互联网发布：建筑算量软件编辑：程序博客网时间：2024/06/06 02:19

图像语义分割是对图像像素级理解的基础，也是图像处理的高阶操作。自从深度学习出来之后，已经有了不少的基于卷积网络的图像语义分割模型，如从全卷积网络到大型卷积核：深度学习的语义分割全指南这篇文章介绍了非常多的模型。

本篇博客只对空洞卷积进行多尺度背景聚合（Multi-Scale Context Aggregation by Dilated Convolutions）和DeepLab2（DeepLab + ResNet）两篇来进行测试。毕竟在介绍DeepLab2的时候需要用到空洞卷积。

（1）空洞卷积

空洞卷积的原理如图所示，仔细看了下原理，才知道在传统的CNN中，正常都会采用pooling池化来达到降维的目的，这种在图像语义分割中会产生一定的副作用，如经典的FCN在第3－5的featuremap（特征层）上进行语义分割，由于经过池化后的特征层上像素尺寸比较低，即使通过上采样，featuremap上的精度也会损失。因此空洞卷积的目的是：不要池化层，毕竟池化之后正常会减少像素的信息而导致信息损失。同时在某个卷积操作后进行如图所示的操作，从而可以扩大感知的视野，再采用这样大视野的新的featuremap操作从而来实现更加精确的语义分割。在Dilated Convolutions文章指出dilated convolution既可以以指数的速度扩大感受野且不会降低特征的分辨率和大小。dilated convolution感受野指数级计算的公式如下：F^(i+1)=(2^(i+2) − 1)×(2^(i+2) − 1)。