图像语义分割

来源:互联网 发布:华腾软件学院 编辑:程序博客网 时间:2024/06/04 18:19

因为参加比赛的关系,接触到一些有关图像语义分割的知识,在此以做记录。

图像语义分割

在深度学习应用到计算机视觉领域之前,人们使用 TextonForest 和 随机森林分类器进行语义分割。卷积神经网络(CNN)不仅对图像识别有所帮助,也对语义分割领域的发展起到巨大的促进作用。

语义分割任务最初流行的深度学习方法是图像块分类(patch classification),即利用像素周围的图像块对每一个像素进行独立的分类。使用图像块分类的主要原因是分类网络通常是全连接层(full connected layer),且要求固定尺寸的图像。

2014 年,加州大学伯克利分校的 Long 等人提出全卷积网络(FCN),这使得卷积神经网络无需全连接层即可进行密集的像素预测,CNN 从而得到普及。使用这种方法可生成任意大小的图像分割图,且该方法比图像块分类法要快上许多。之后,语义分割领域几乎所有先进方法都采用了该模型。

除了全连接层,使用卷积神经网络进行语义分割存在的另一个大问题是池化层。池化层不仅扩大感受野、聚合语境从而造成了位置信息的丢失。但是,语义分割要求类别图完全贴合,因此需要保留位置信息。本文将介绍两种不同结构来解决该问题。

本文介绍一种编码器-解码器结构。编码器逐渐减少池化层的空间维度,解码器逐步修复物体的细节和空间维度。编码器和解码器之间通常存在快捷连接,因此能帮助解码器更好地修复目标的细节。U-Net 是这种方法中最常用的结构。 U-net这篇论文的作者是参加一个ISBI的竞赛, 获得了不错的效果,然后将其的成果分享给大家,以供大家学习.http://brainiac2.mit.edu/isbi_challenge/ 这是ISBI的官网.

U-Net 原理

U-net
网络结构如图所示,因为结构类似字母U,所以称为U-Net,其最大的特点就是左侧和右侧有连接,即将原始信息传递到右侧以防止丢失过多的特征。另外此结构是一个端到端的图像,即输入是图像,输出也是一副图像。
蓝色代表卷积和激活函数,灰色代表复制,红色代表下采样,即池化层,绿色代表上采样&卷积,conv1*1代表卷积核为1X1的卷积操作,即此网络没有全连接。
首先用3*3的卷积核进行卷积(左一),feature map 由1变至64,尺寸大小每次减少两个,是因为采用3*3的卷积核(unpadded),以此类推,不断增加feature map 提取图像的深层特征。直到右四,白色方框为左侧裁剪并用灰色箭头传递得来,与原来的拼接得到新的卷积层,以此类推。到最后的output,使用1*1的卷积核,对图像进行分类。