CNN与常用框架

来源:互联网 发布:如何在一个数据区间 编辑:程序博客网 时间:2024/06/05 06:52
七月在线 5月深度学习班课程笔记——No.4  

  这一节内容比较丰富。主要介绍神经网络的每一个层级结构,理清楚每一层可能影响结果的参数,再介绍CNN的常用框架。


1. 神经网络

1.1 神经网络——是什么?

  神经网络没有一个严格的正式定义。它的基本特点,是试图模仿大脑的神经元之间传递,处理信息的模式。还是有些抽象,那么看看下面这张图。
  这里写图片描述
  输入层和输出层之间有多个隐层hidden layer,输入层、输出层和隐层都有若干个节点。每一个节点是一个神经元,每个神经元,通过激励函数,计算处理来自其它相邻神经元的加权输入值;神经元之间的信息传递的强度,用所谓加权值来定义,算法会不断自我学习,调整这个加权值。
  在逻辑回归中,我们知道回归函数中得到线性拟合z=θ0+θ1x1+θ2x2,输入到sigmoid函数中a=g(z)=11+ez,这个过程可以看做一个没有隐层的神经元,g(z)就是激励函数:
  这里写图片描述
  如果在中间加上少量隐层,就是浅层神经网络,增多中间层,就是深层神经网络(DNN)。

1.2 神经网络——为什么?

  神经网络为什么比其他的分类器有更好的效果呢?传统的逻辑斯特回归或者linear SVM来做简单的的分类,对于非线性可分的情况,可以设定核函数去把平面数据分隔开,但是样本很不规则的时候却难以分割。那么神经网络是怎么做的呢?举一个吴恩达老师课件里的例子:
  这里写图片描述
  当x1、x2相同时y=1,不同时y=0,对y的取值进行切分,很难用一条直线切分。如果有一个分类器,用两条线性分类的组合(逻辑与)判定正负样本,就可以完成。如图,给定一组权重可得到一条直线,由两组权重构造两条直线,再有这两条直线进行线性加权,得到切分函数。
  这里写图片描述
  除了“逻辑与”,神经元还可以完成“逻辑或”,这两个操作是神经网络的高明所在。例如对下图四种颜色分类,采用“抠图”的方式得到绿色:先对上面绿色的模块的7条变作线性切分,得到0、1的分类,再对这7条线性分类做与操作,得到上面的这个绿色。再和其他的绿色模块取或操作,得到全部的绿色区域。
  这里写图片描述
  我们已经了解了神经网络的结构,是全连接的,那么卷积神经网络又是什么呢? 


2. 卷积神经网络的层级结构

  卷积神经网络依旧是层级结构,但是层的功能和形式做了变化,主要的层次有数据输入层、卷积计算层、激励层、池化层和全连接层,这些层次穿插着组合在一起。
  这里写图片描述

2.1 数据输入层——Input layer

  有3种常见的图像数据处理方式:
  1. 去均值:把输入数据各个维度都中心化到0。
  2. 归一化:幅度归一化到同样的范围。
  3. PCA/白化:用PCA降维,白化是对数据每个特征轴上的幅度归一化。
  CNN里一般只做去训练集的均值。

2.2 卷积计算层——CONV layer

  卷积计算层是卷积神经网络的核心,这个操作在物理上是可解释的。我们知道神经网络是全连接的,卷积网络不是,是局部关联的。过程是:每个神经元看做一个滤波器filter,filter对局部数据计算。取一个数据窗口,这个数据窗口不断地滑动,直到覆盖所有样本 。需要知道这几个参数:
  a. 深度depth:神经元个数,决定输出的depth厚度。
  b. 步长stride:决定滑动多少步可以到边缘
  c. 填充值zero-padding:在外围边缘补充若干圈0,方便从初始位置以步长为单位可以刚好滑倒末尾位置,通俗地讲就是为了总长能被步长整除。
  这里写图片描述
  举例分析:下面这张图中,有两个神经元,即depth=2;取3*3的窗口,每次移动两个步长,stride=2;zero-padding=1。分别以两个滤子为轴滑动数组,得到两组结果。
  这里写图片描述
  具体是怎么计算的呢?对应位置上是数字先乘后相加,中间滤波器filter与数据窗口做内积。以第一个结果-3为例:第0组00+00+0(1)+01+10+20+00+10+01=0,第1组=-4,第2组=0,偏差bias=1,所以 0+(-4)+0+1=-3。整个计算过程的动态图如下,做的很直观明了!
  这里写图片描述
  之所以卷积神经网络的参数不会很大,有一个很重要的性质就是参数共享机制:同一个神经元,无论输入数据如何滑动变化,连接数据窗的权重是固定的。这样一来,有多少个神经元,就制定多少组参数,过程中不会再改变。
  卷积神经网络在图像上的应用很广泛,下面这张图表示使用不同的滤子处理图像的差别。
  这里写图片描述

2.3 激励层——ReLU

  激励层有一个激励函数,把卷积层输出结果做非线性映射。非线性的映射有:Sigmoid、Tanh、ReLU、Leaky ReLU、ELU、Maxout等,大多数用的是ReLU。ReLU收敛快(比sigmoid函数至少提高6倍),求梯度简单,但是较脆弱,它的图像如下:
  这里写图片描述
  改进的有:
  a. Leaky ReLU:不会“饱和” /挂掉,计算也很快。
  b. 指数线性单元ELU:所有ReLU有的优点都有,不会挂,输出均值趋于0,因为指数存在,计算量略大。
  c. Maxout:计算是线性的,不会饱和不会挂,多了好些参数;max(ωT1x+b1,ωT2x+b2)
  选择激励函数的一些实际经验:不要用sigmoid,太难以训练;首先试RELU,因为快,但要小心点,打印中间信息判断状态;如果RELU失效,请用Leaky ReLU或者Maxout;某些情况下tanh倒是有不错的结果,但是很少。

2.4 池化层——Pooling layer

  池化层夹在连续的卷积层中间,用于压缩数据和参数的量、减小过拟合。如下图,在不影响图像内容的前提下,把224x224的图片压缩成 112x112,基于的理论是平移不变性。
  这里写图片描述
  池化层有 Max pooling 和 average pooling两种方式,工业界多用Max pooling。Max pooling每次把窗口中最大的值抽出来,如下图:
  这里写图片描述

2.5 全连接层——FC layer

  全连接层中,两层之间所有神经元都有权重连接,通常全连接层在卷积神经网络尾部,因为尾部的信息量没有开始那么大。
  一般卷积神经网络的结构层次如下:
  这里写图片描述

2.6 卷积神经网络的优缺点

  优点:
  a. 共享卷积核,对高维数据处理无压力
  b. 无需手动选取特征,训练好权重,即得特征
  c. 分类效果好
  缺点:
  a. 需要调参,需要大样本量,训练最好要用GPU
  b. 物理含义不明确

3. 典型CNN

  1. LeNet,这是最早用于数字识别的CNN
  2. AlexNet, 2012 ILSVRC比赛远超第2名的CNN,比LeNet更深,用多层小卷积层叠加替换单大卷积层
  3. ZF Net, 2013 ILSVRC比赛冠军
  4. GoogLeNet, 2014 ILSVRC比赛冠军
  5. VGGNet, 2014 ILSVRC比赛中的模型,图像识别略差于GoogLeNet,但是在很多图像转化学习问题(比如object detection)上效果奇好。

4. CNN常用框架

  1. Caffe:源于Berkeley的主流CV工具包,支持C++,python,matlab,Model Zoo中有大量预训练好的模型供使用。
  prototxt是用命令行做训练时要用的,定义了cnn的层级结构。
  2. Torch:Facebook用的卷积神经网络工具包,通过时域卷积的本地接口,使用非常直观,torch定义新网络层比较简单,可以做图像或者RNN。
  3. TensorFlow:Google的深度学习框架,可视化很方便,数据和模型并行化好,速度快。开源后资源会更丰富。
  
  CNN的应用:图像识别与检索、人脸识别、性别/年龄/情绪识别、物体检测、场景判定与危险监控等。

More

  1. 深度学习—CNN与常用框架 视频及PPT下载
  2. CNN笔记:通俗理解卷积神经网络
3 0
原创粉丝点击