图像分割“Not All Pixels Are Equal: Difficulty-Aware Semantic Segmentation via Deep Layer Cascade”

来源：互联网发布：网页数据采集器编辑：程序博客网时间：2024/06/06 01:49

提出层级联（LC）提升语义分割的准确率和速度，将深度模型改为几个子模型的级联，初级子模型处理容易或置信度较高的区域，之后将较难的区域前向传播到下一级自模型处理。卷积仅在特定区域上计算，降低了计算量。

优点：
1. 浅层处理较易区域，深层处理较难区域，自适应学习提升性能；
2. LC的训练和测试时间都有提升；
3. 端到端的训练结构，所有子模型联合训练。

与V&J级联思路不同，层级联拒绝置信度较高的样本，低置信度的将本前向传播，层级联策略如下图所示：
这里写图片描述

上图中，所有像素分为三个级别，较易ES，中等MS和较难HS。较易的像素对应第一级正确分类置信度高于95%的子集，较难的样本对应误分类置信度高于95%的子集。中等样本置信度低于95%。

策略：第一步将ES和HS识别出，将MS传播到第二级。上
原因：
1. 上图显示70%的HS像素在物体的边界处，易混淆。对HS进行训练，易造成过拟合。
2. 30%像素属于ES，去除ES和HS,减少了约40%的像素，降低计算量。

层级联

参考网络结构
参考网络Inception-Resnet-v2,即IRNet,下图是IRNet的结构，包括6个组成部分，即，Stem, IRNet-A/B/C,Reduction-A/B。

将分类网络用于分割，先做两个更改，一是去除池化层及降低Reduction-A\B卷积步长提高分辨率，二是固定BN层的参数提高其稳定性。
IRNet转为IRNet-LC
通过将不同的组件划分到不同的级联阶段实现，级联3层结构，Reduction-A之前的组件划分到第一阶段，Reduction-A与-B之间的第二阶段，其余第三阶段。如下图所示：

此外在每阶段两个卷积层和一个softmax层。这样每个阶段都有自己的损失函数。上图中，第一阶段识别出大部分的背景像素，将其余区域前传，这些区域此时的标记未知，第二阶段仅处理传过来的区域，第三阶段重复这个过程。图3b显示了区域卷积与全图卷积的区别，图3c是在残差模型上进行区域卷积，特征通过等值映射和卷积得到。

第一阶段，给定3*515*512的图像I，输出21*64*64的分割标记图，每个21*1的向量表示对应像素属于21类物体的概率。若某像素最大得分超过阈值ρ，接受对该像素的预测，不再将其传播到下一层。ρ通常大于0.95。
第二阶段决定哪些像素输送到第三阶段，网络仅引入了一个超参数ρ，ρ决定了每步像素被拒绝的程度。ρ=1.0时，没有像素被拒绝，当ρ变小时，更多的像素在第一阶段就被决定归属了，没有提取到深层信息，影响性能。当ρ=0.985时，相对于IRNet，性能提升1.7%，速度达到15fps。
网络训练
IRNet使用ImageNet预训练，LC增加了两卷积层的参数使用正态分布随机初始化，训练有两步：初始训练，级联训练。初始训练中最小化像素级softmax损失函数，级联训练对上一步置信度低的像素微调。

实验结果
CitySpaces每层分割可视化结果:
这里写图片描述

VOC2012上与其他方法性能和时间对比：
这里写图片描述

阅读全文

0 0