AlexNet学习笔记-论文翻译和理解(一)

来源:互联网 发布:淘宝优惠券微信群号码 编辑:程序博客网 时间:2024/05/17 04:15

ImageNet Classification with Deep Convolutional Neural Networks——AlexNet

       Alex Krizhevsky、Ilya Sutskever和 Geoffrey Hinton创造了一个“大型的深度卷积神经网络”,赢得了2012 ILSVRC(2012年ImageNet 大规模视觉识别挑战赛)。这个比赛被誉为计算机视觉的年度奥林匹克竞赛,来自全世界的团队相聚一堂,一决高下。2012年是CNN首次实现Top 5误差率15.4%的一年(Top 5误差率是指给定一张图像,其标签不在模型认为最有可能的5个结果中的几率),当时的第二名误差率为26.2%。我们可以看出性能提升相当大。也正是从这个时刻开始,CNN一战成名,家喻户晓。

      本文最主要的是对其论文的翻译和简单的理解,自己之前没有接触过这方面的内容,也没有图像相关的基础。最近兴趣大发,想了解一下,在翻译和理解的过程中如果有错误的地方,还请大家多多指教,谢谢!

摘要

        在ImageNet LSVRC-2010的比赛中,我们训练了一个大而深的卷积神经网络,用来将120万张高分辨率的图片分为1000个类别。在测试数据中,我们取得了top-1和top-5的错误率为37.5%和17%,明显优于已有的系统。本文提出的神经网络有6000万个参数和65万个神经元,由5个卷积层(其中一些紧跟着最大池化层)和3个全连接层,以及最后的1000维的softmax层组成。为了使训练速度更快,我们使用了非饱和神经元和卷积操作的非常高效的GPU实现。为了减小全连接层的过拟合,我们使用了Dropout的正则化方法,该方法非常有效。我们使用了该模型的一个变体参加了ILSVRC-2012 竞赛,取得了top-5错误率为15.3%。

简单总结—几个自己不懂的问题:

  1. 非饱和神经元是什么?(可能是下文提出的ReLU)
  2. softmax层是什么?(没有见过,等我查了再来补充)
  3. Dropout的正则化方法?(以前也没见过,看看后面有没有解释)

1.介绍

        当前对象识别技术充分利用机器学习的方法。但是基于机器学习的对象识别方法如何进一步改善性能呢?

  1. 搜集更大的数据集
  2. 学习更有力的模型
  3. 防止过拟合的更好的技术

        现实世界中的对象识别存在很大的变数,需要更大的数据集。

        从数以百万计的图片中学习出成千上万的对象,我们需要一个具有强大学习能力的模型。然而,对象识别任务的巨大复杂性意味着即使是像ImageNet那样大的数据集也不能指定这个问题,所以我们的模型也应该有很多的先验知识来补偿我们没有的所有数据。卷积神经网络构成了这样一类网络,他们的学习能力可以通过改变隐藏层的宽度和网络的深度来被控制,他们也做出了关于图像性质的强大的和大多数情况下正确的假设(即,统计的平稳性和像素依赖的局部性)。与同样大小层次的标准前向神经网络相比,CNN具有更少的链接和参数,因此更容易训练,而它们的理论最佳性能可能仅仅稍差。

       网络大小的限制因素:

  1. 当前GPU的可用内存大小
  2. 我们愿意忍受的训练时间
      我们的网络在两个GTX 580 3GB GPU上运行了5到6天的时间。实验表明我们的结果可以进一步提升,等到将来更快的GPU和更大的数据集变得可用的时候。

2.数据集

        ImageNet是由大概22000个类别超过1500万张带标签的高分辨率图像组成的数据集。这些数据是由Amazon的众包工具从网上搜集而来,并人为的打上了标签。ILSVRC使用了ImageNet的一个子集,由1000个类别的图像组成,每个类别1000张。包括:

  • 120万张测试图像
  • 5万张验证图像
  • 15万测试图像

       ImageNet由可变分辨率的图片组成,然而我们的系统需要维数固定的输入。因此,我们下采样图片使其转化为256*256的固定分辨率。给定矩形图像,我们首先重新缩放图像,使得较短边的长度为256,然后从得到的图像中裁剪出中心的256×256色块。我们没有以任何其他方式预处理图像,除了从每个像素减去训练集上的平均活动。 因此,我们在像素的(中心)原始RGB值上训练我们的网络。

简单总结—几个不懂的问题:

  1. 重新缩放图像->较短边长为256->从前面两部得到的结果裁剪出中心的256*256色块,这个过程难道是下面的这样?

  1. 从每个像素点减去训练集上的平均活动,个人理解如下,不知道对不对:
  • 首先输入是彩色图像,因此包含RGB三个颜色通道,所以输入是224*224*3的矩阵,对所有的图像在3个颜色通道上相加求均值,得到224*224*3的均值矩阵。
  • 用每张图像减去该均值矩阵。

3.架构

         下图就是网络的架构,它包含8层,5个卷积层和3个全链接层。接下来将该网络架构的创新之处。3.1-3.4根据其重要性进行排序,最重要的排在前面。


3.1 ReLU非线性

     建模一个神经元输入输出之间的函数关系的标准方法是使用

或者

     从使用梯度下降的训练时间来讲,这些饱和非线性函数比不饱和非线性函数慢得多。例如:

    

     我们仍然沿用Nair和Hinton的称谓,称带有这种非线性的单元为修正线性单元(ReLU)。拥有ReLU的深层卷积网络训练速度比同等的tanh单元要快得多。如图1所示,展示了对于特定的4层卷及神经网络来说在CIFAR-10数据集上达到25%的训练误差需要的迭代次数。如果我们仍然使用传统的饱和神经元,在这么大的网络中开展实验是不可能的。




【续】

0 0
原创粉丝点击