ENet-论文笔记-理解

来源:互联网 发布:软件架构设计之 编辑:程序博客网 时间:2024/05/16 05:18

论文:ENet

翻译:-.-

理解参考:http://blog.csdn.net/zijinxuxu/article/details/67638290
http://blog.csdn.net/joshua_1988/article/details/52295302

核心技术:
整个网络的结构如下:
这里写图片描述
其中initial的组成如下图中的a所示,bottleneck的组成如下图中的b所示.
这里写图片描述
对于下采样过程中的边缘信息丢失问题,本文的解决方案与SegNet中的解决方案一致,单独存储边缘信息,然后上采样恢复时使用之前保存的边缘信息.
initial层并没有在实际的分割过程中直接起到作用,这里使用它更多的是起到特征提取的作用,压缩输入图像”体积”的作用,除去了图像中的视觉冗余信息.
不同于SegNet的对称encoder,decoder设计,ENet中的Encoder明显大于Decoder.(在不明显影响分割精度的情况下尽可能的缩小了网络的体积,减少了参数的量.)
经过作者的测试,在ENet中使用ReLU非线性激活函数反而降低了ENet的精度.(经过作者推测原因可能是这个网络本身不是很深,)
已知卷积的权重会有冗余,因此把大的卷积分解成更小的更简单的操作,称为低阶近似(low-rank approximation.),会有速度上的提升。
Dilated convolutions(膨胀/带孔卷积):延伸了感受野,详见“Multi-scale context aggregation by dilated convolutions,”有效的提升了精度.

突出贡献
这里写图片描述
由上图同SegNet在TX1和Titan X上的处理速度的比较可以看出,ENet的处理速度相当快,这个网络结构参数少,结构相对简单,速度快,给低功耗移动设备上实时的Segmentation提供了实际操作的可能性.

原创粉丝点击