论文阅读笔记-图像识别分类

来源：互联网发布：笔记本清理垃圾软件编辑：程序博客网时间：2024/06/06 00:53

ImageNet Classification whih Deep Convolutional Neural Networks

目标：分类120万个图片的1000个不同的类别

网络的结构：
60,000,000 个参数
65,00000 个神经元
5个卷积层
3个全连接层
特点：使用非饱和神经元(non-satueating nurons) + GPU 提过运行的速率
使用Dorpout技术避免过拟合

一、Introduction：
1、过去的经验：通常使用机器学习的方法进行物体的识别
使用大的数据集，学的有效的model
利用最好的算法，避免过拟合
原始机器学习算法的缺点，需要大量的标记数据，需要手动提取特征进行分类

CNNs:
相对原始的神经网络，有较少的参数，而且图像识别方面性能更优
可以不提取特征值，直接处理原始图片的像素

二、ImageNet Architecture(网络结构)
5个卷积层和3个全连接层
1.激活函数：Relu Nonlinearly
更快递的收敛，一般使用这个激活函数，慎用sigmiod函数
2、GPU训练
使用交叉GPU训练，可以减少计算时间，相对一个更高效的GPU更快。

3、局部对应标准化（local Response Normalization）
4、重叠池化层（overlapping Pooling）
整体的结构：
第一层：224×224*3作为输入层，使用 11*11×3，stride=4的96个kernal进行计算。
第二层：用5*5*48的256个kernals进行过滤
第三层：用3*3*256的384个kernals进行过滤
第四层：用3*3*192的384个kernals进行过滤
第五层：用3*3*192的256个kernals进行过滤
全连接层一共4096个神经元。

减少过拟合（reducing overfitting）
1、数据增加，通过简单的变化原始数据到新的数据，对图形平移，翻转等。
2、使用PCA修改RGB数据
I[x,y] = [I[x,y]R,I[x,y]G, I[x,y]$B]
变换：[P1, P2, P3][[a1*b1], [a2*b2], [a3*b3]]
P[i]、b[i]分别是特征向量和特征值，a[i]是通过高斯分布u(0,0.1^2)产生的随机变量

3、使用dropout方法，去除一些神经元。    每一次dropout得到不同的神经元，但是公用权重，最后测试时候使用全部神经元。

神经网络学习的细节：
初始化权重：使用正太分布u(0,0.1^2)初始化权重
初始化2、4、 5的卷积层的偏量bias=1，其他成的bias=0
激活函数：Relus
所有层使用相同的学习率v
优化计算：SGD，
每次的计算：bath=128
冲量momentum = 0.9
权重衰减 weight decay = 0.05

论文地址：ImageNet Classification whih Deep Convolutional Neural Networks

0 0