图像语义分割

来源：互联网发布：华腾软件学院编辑：程序博客网时间：2024/06/04 18:19

因为参加比赛的关系，接触到一些有关图像语义分割的知识，在此以做记录。

图像语义分割

在深度学习应用到计算机视觉领域之前，人们使用 TextonForest 和随机森林分类器进行语义分割。卷积神经网络（CNN）不仅对图像识别有所帮助，也对语义分割领域的发展起到巨大的促进作用。

语义分割任务最初流行的深度学习方法是图像块分类（patch classification），即利用像素周围的图像块对每一个像素进行独立的分类。使用图像块分类的主要原因是分类网络通常是全连接层（full connected layer），且要求固定尺寸的图像。

2014 年，加州大学伯克利分校的 Long 等人提出全卷积网络（FCN），这使得卷积神经网络无需全连接层即可进行密集的像素预测，CNN 从而得到普及。使用这种方法可生成任意大小的图像分割图，且该方法比图像块分类法要快上许多。之后，语义分割领域几乎所有先进方法都采用了该模型。

除了全连接层，使用卷积神经网络进行语义分割存在的另一个大问题是池化层。池化层不仅扩大感受野、聚合语境从而造成了位置信息的丢失。但是，语义分割要求类别图完全贴合，因此需要保留位置信息。本文将介绍两种不同结构来解决该问题。

本文介绍一种编码器-解码器结构。编码器逐渐减少池化层的空间维度，解码器逐步修复物体的细节和空间维度。编码器和解码器之间通常存在快捷连接，因此能帮助解码器更好地修复目标的细节。U-Net 是这种方法中最常用的结构。 U-net这篇论文的作者是参加一个ISBI的竞赛, 获得了不错的效果,然后将其的成果分享给大家,以供大家学习.http://brainiac2.mit.edu/isbi_challenge/ 这是ISBI的官网.

U-Net 原理

U-net
网络结构如图所示，因为结构类似字母U，所以称为U-Net，其最大的特点就是左侧和右侧有连接，即将原始信息传递到右侧以防止丢失过多的特征。另外此结构是一个端到端的图像，即输入是图像，输出也是一副图像。
蓝色代表卷积和激活函数，灰色代表复制，红色代表下采样，即池化层，绿色代表上采样&卷积，conv1*1代表卷积核为1X1的卷积操作，即此网络没有全连接。
首先用3*3的卷积核进行卷积（左一），feature map 由1变至64，尺寸大小每次减少两个，是因为采用3*3的卷积核(unpadded)，以此类推，不断增加feature map 提取图像的深层特征。直到右四，白色方框为左侧裁剪并用灰色箭头传递得来，与原来的拼接得到新的卷积层，以此类推。到最后的output，使用1*1的卷积核，对图像进行分类。

阅读全文

0 0