视觉识别(Visual Recognition)-- 总结
来源:互联网 发布:淘宝网购物下载 编辑:程序博客网 时间:2024/05/24 06:40
1. 基本概念
1.1 视觉识别
6)Depth estimation [Laina et al 2016]
7)Segment proposal [Pinheiro et al 2016]
1.1特征提取
特征提取:目前流行的方法是通过CNN来提取特征。
CNN网络越深,提取的特征越能表述目标的特征;CNN网络越深,就会遇到以下两个问题:
• 收敛问题(梯度消失或爆炸):可通过初始化优化方法和批量归一化方法(BN)来解决
• 准确度下降问题(网络越深,训练误差和测试误差越大):可通过深度残差学习(Deep Residual Learning)来解决
1.2 过拟合(Overfitting)
过拟合一直是DeepLearning的大敌,它会导致训练集的error rate非常小,而测试集的error rate大部分时候很大。克服过拟合的方法有:
1.2.1 数据扩增 (Data Augmentation)
对现有数据进行变换,使得总数据量得到提升,常用的变换方法有:
(1) 截取256x256:
给定任意图像,按等比例把较短的边缩放为256,然后从中间截取256x256大小的部分;
(2) 图像平移和水平翻转:
• 训练集:从256x256的图像中提取224x224的小块,然后进行水平翻转,使数据集可扩增至2048倍((256-224)*(256-224)*2=32*32*2=2048),即从一张图可得到2048张图
• 测试集:从256x256的图像中提取5个224x224的小块(每个角落一个,中心一个),然后进行水平翻转,则共有((4+1)*2=10)10 个,最后分别对10个图像进行预测,并计算10个预测值的平均值
(3) 改变训练图像RGB的强度(对RGB空间做PCA,然后对主成分做一个(0, 0.1)的高斯扰动)
• 训练集:在训练集的RGB通道上做PCA,但是不降维,只取特征向量和特征值,对训练集上每张图片的每个像素加上值:,其中pi和λi分别表示特征向量和特征值,αi表示高斯随机变量(均值为0,方差为0.1),此方案近似抓住了图像的一个重要属性,即图像的特征不随光照的颜色和强度的变化而变化
1.2.2 正则化方法Dropout
Dropout层一般用在FC层之后,在正向传播时,设置隐层神经元以0.5的概率为0,这些被“drop out”的神经元也不参与反向传播。这种方式使得网络强制一部分神经元来表示当前的图片,很大限度上降低过拟合。但是这样一定程度上会延长训练的时间,因为随机性不只是会打乱过拟合的过程,也会打乱正常拟合的过程。 在测试时,不使用Dropout,使所有神经元参与运算,给他们的结果乘以0.5来作为输出值。
其实,最后不乘0.5也是可以的。如果在分类的时候使用的不是原来的softmax,那么只要特征之间可以区分就行了,乘不同的系数只是放大或者缩小了这种差别。
1.3 top-1 and top-5 error rate是什么?
1)top-1 error rate = the number of (与最大的预测概率对应的class == target label)/(the total prediction number)
2)top-5 error rate = the number of (target label包含在前5个最大预测概率对应的class中)/(the total prediction number)
2. CNN在CV中的应用
2.1 应用框架
2.1.1 CNN应用框架
1)classification network:给出了图像块的类别的概率分布
2)detection network:进一步为每一类给出了一个bounding box
2.1.2 目标检测框架
2.2 R-CNN目标检测法
2.3 Fast R-CNN目标检测法
2.4 Faster R-CNN目标检测法
2. 目标检测方法列表
算法名称算法特点解决的问题时间性能CNN R-CNN
- 视觉识别(Visual Recognition)-- 总结
- 卷积神经网络用于视觉识别Convolutional Neural Networks for Visual Recognition
- 斯坦福CS231n课程: 视觉识别中的卷积神经网络 Convolutional Neural Networks for Visual Recognition
- A Survey: Visual Place Recognition 视觉场景识别的一篇调研
- DeCAF: A Deep Convolutional Activation Feature for Generic Visual Recognition 一般视觉识别的深度卷积刺激特征
- 【计算机视觉】行为识别(action recognition)相关资料
- 语音识别(Speaker Recognition)
- 表情识别(emotion recognition)
- 人脸识别(face recognition)
- 人脸识别(Face Recognition)相关
- 人脸识别(face recognition)
- 视频人员行为识别(Action Recognition)
- kaggle-Digit Recognition(手写数字识别)
- 计算机视觉的比较有用的项目project, visual object tracking & human action recognition.
- 【计算机视觉】人脸识别总结
- Activity Recognition行为识别
- Activity Recognition行为识别
- Speech.Recognition(语音识别)
- 图像类型间的转换
- NYOJ A Famous Music Composer
- 很棒的jQuery文件上传插件
- 使用Spring Boot来加速Java web项目的开发
- I.MX6Q新版BSP之kernel移植
- 视觉识别(Visual Recognition)-- 总结
- 前端需要看的书籍
- 以太坊的POS共识机制(二)理解 Serenity :Casper
- 新app开发
- LeetCode[374] Guess Number Higher or Lower
- JavaScript获取和设置窗口宽度、高度
- 频道与菜单栏关联-----菜单栏页面
- IMX6处理器的GPIO配置方式
- poj 1011 sticks