[论文阅读笔记]U-Net: Convolutional Networks for Biomedical Image Segmentation

来源：互联网发布：教育产业化知乎编辑：程序博客网时间：2024/06/08 00:38

摘要

大意是说，普遍认为深度网络需要大量已标签数据集，这个网络(U-Net)可以依靠数据增强来事先少量数据集训练网络。而且，这个网络训练得很快，运用GPU运行，512*512的图片只需要不用一秒即可。
该网络属于端对端网络，即输入图片，输出分割开的图片。赢得了2015年ISBI竞赛。

介绍

卷积神经网络已经存在很久了，但因为缺少可用的训练数据集而没被大量使用，直到ImageNet数据集（百万张图片）的出现。
传统的卷积网络的目标是分类，即对每个图片给予一个标签。但是对于很多视觉任务，特别是医疗图像方向，目标应该包括定位，以及对每个像素块给予一个标签。而且，医疗图像的训练集都不大。
大概也就介绍了一些传统的图像分割算法，如滑动窗口，以及U-Net借鉴的前身FCN之类的，并为比较难的分割的情况（彼此接触的同类物体）提议了一种方法。

网络架构

U-Net

网络架构就如上图，可以描述为由收缩路径（左边）和扩张路径组成。收缩路径和传统的卷积网络一样，由卷积核尺寸为3∗3的无填充卷积，每次卷积后都经过ReLU函数作用，以及尺寸为2∗2，步距为2的最大池组成。这个最大池化就是下采样的过程，下采样后就将channels变为2倍。扩张路径由2∗2的上卷积，上卷积的output channels为原先的一半，再与对应的特征图（裁剪后）串联起来（得到和原先一样大小的channels），再经过两个尺寸为3∗3的卷积及经过ReLU作用。相应的裁剪特征图是必须的，因为在我们卷积的过程中会有边界像素的丢失。在最后一层通过卷积核大小为1∗1的卷积作用得到想要的目标种类。在这个网络中，有23个卷积层。
为了保证输出分段映射的无缝拼接，需要谨慎的选择输入图片的尺寸，以保证所有的Max Pooling操作应用于有偶数的x-size和偶数的y-size的图层。

训练

该论文是基于Caffe，使用动量为0.99的SGD，损失函数为交叉熵，训练输入图片与它们对应的分割图片（输入图片和最后的图片的尺寸不一样）。该训练模型和传统的训练模型没什么不同，都是注意权重初始化随机，数据增强等。

阅读全文

0 0