视觉识别（Visual Recognition）-- 总结

来源：互联网发布：淘宝网购物下载编辑：程序博客网时间：2024/05/24 06:40

1. 基本概念

1.1 视觉识别

视觉识别包含以下内容：

1）Image Classification

2）Object Detection

3）Object Localization

4）Instance Segmentation

5）Human pose estimation [Newell et al 2016]
6）Depth estimation [Laina et al 2016]
7）Segment proposal [Pinheiro et al 2016]

1.1特征提取

特征提取：目前流行的方法是通过CNN来提取特征。

CNN网络越深，提取的特征越能表述目标的特征；CNN网络越深，就会遇到以下两个问题：

• 收敛问题（梯度消失或爆炸）：可通过初始化优化方法和批量归一化方法（BN）来解决

• 准确度下降问题（网络越深，训练误差和测试误差越大）：可通过深度残差学习（Deep Residual Learning）来解决

1.2 过拟合(Overfitting)

过拟合一直是DeepLearning的大敌，它会导致训练集的error rate非常小，而测试集的error rate大部分时候很大。克服过拟合的方法有：

1.2.1 数据扩增（Data Augmentation）

对现有数据进行变换，使得总数据量得到提升，常用的变换方法有：

(1) 截取256x256：

给定任意图像，按等比例把较短的边缩放为256，然后从中间截取256x256大小的部分；

(2) 图像平移和水平翻转：

• 训练集：从256x256的图像中提取224x224的小块，然后进行水平翻转，使数据集可扩增至2048倍((256-224)*(256-224)*2=32*32*2=2048)，即从一张图可得到2048张图

• 测试集：从256x256的图像中提取5个224x224的小块（每个角落一个，中心一个），然后进行水平翻转，则共有（（4+1）*2=10）10 个，最后分别对10个图像进行预测，并计算10个预测值的平均值

(3) 改变训练图像RGB的强度(对RGB空间做PCA，然后对主成分做一个(0, 0.1)的高斯扰动)

• 训练集：在训练集的RGB通道上做PCA，但是不降维，只取特征向量和特征值，对训练集上每张图片的每个像素加上值：，其中pi和λi分别表示特征向量和特征值，αi表示高斯随机变量（均值为0，方差为0.1），此方案近似抓住了图像的一个重要属性，即图像的特征不随光照的颜色和强度的变化而变化

1.2.2 正则化方法Dropout

Dropout层一般用在FC层之后，在正向传播时，设置隐层神经元以0.5的概率为0，这些被“drop out”的神经元也不参与反向传播。这种方式使得网络强制一部分神经元来表示当前的图片，很大限度上降低过拟合。但是这样一定程度上会延长训练的时间，因为随机性不只是会打乱过拟合的过程，也会打乱正常拟合的过程。在测试时，不使用Dropout，使所有神经元参与运算，给他们的结果乘以0.5来作为输出值。

其实，最后不乘0.5也是可以的。如果在分类的时候使用的不是原来的softmax，那么只要特征之间可以区分就行了，乘不同的系数只是放大或者缩小了这种差别。

1.3 top-1 and top-5 error rate是什么?

1）top-1 error rate = the number of (与最大的预测概率对应的class == target label)/(the total prediction number)

2）top-5 error rate = the number of (target label包含在前5个最大预测概率对应的class中)/(the total prediction number)

视觉识别（Visual Recognition）-- 总结

1. 基本概念

1.1 视觉识别

1.1特征提取