目标识别基础知识

来源:互联网 发布:龙凤斗结局知乎 编辑:程序博客网 时间:2024/04/30 18:48

http://www.cnblogs.com/gujianhan/p/6035514.html
Roi:Region Of Interest
OCR:Optical character recognition 光学字符识别
选择性搜索 Selective Search http://blog.csdn.net/mao_kun/article/details/50576003
OverFeat:FCN+ offset max-pooling
http://blog.csdn.net/hjimce/article/details/50187881
R-CNN
1.Selective Search VS 多尺度的滑动窗口
2.每个类别的边框回归器VS统一的边框回归器
3.SVM VS 多层网络
SPP
1.通过固定pooling输出的方法将维度不一的卷积特征转换为维度一致的全连接输入。(16*16) (4*4) (1*1) 三种pooling。支持不同尺度的网络输入。
2.SPP-net对R-CNN最大的改进就是特征提取步骤做了修改,其他模块仍然和R-CNN一样。特征提取不再需要每个候选区域都经过CNN,只需要将整张图片输入到CNN就可以了,ROI特征直接从特征图获取。和R-CNN相比,速度提高了百倍
Fast R-CNN
Fast R-CNN是要解决R-CNN和SPP-net两千个左右候选框带来的重复计算问题,使用ROI pooling代替SPP。Rol pooling layer的作用主要有两个,一个是将image中的rol定位到feature map中对应patch,另一个是用一个单层的SPP layer将这个feature map patch下采样为大小固定的feature再传入全连接层。
cankao
http://blog.csdn.net/u010678153/article/details/46891655
http://blog.csdn.net/shenxiaolu1984/article/details/51036677
Faster R-CNN
Faster R-CNN则直接利用RPN(Region Proposal Networks)网络来计算候选框,Faster R-CNN抛弃了Selective Search,引入了RPN网络,使得区域提名、分类、回归一起共用卷积特征,从而得到了进一步的加速
http://blog.csdn.net/shenxiaolu1984/article/details/51152614
http://www.jianshu.com/p/cef69c6651a9
http://blog.csdn.net/zy1034092330/article/details/62044941(*****importent)
YOLO
http://www.360doc.com/content/16/1230/14/25664332_618882791.shtml 1.1一体化检测方案
http://blog.csdn.net/zy1034092330/article/details/72807924
网络把目标检测与定位统一到一个深度网络中,而且可以同时在原图上检测多个物体。步骤总结如下:
(1)把图片分割成S*S个方格,假如某个物体的中点落在其中一个方格,那么这个方格就对这个物体负责。这里说的物体的中点应该是指ground truth box中的物体的中心(?是这样吗)。
(2)对于每个格子,预测B个bounding box以及相应的confidence。Bounding box 的如何选择让我思考了一番,回忆起faster cnn中,在网络上预测bounding box会有比例与大小,但这里不需要,因为faster cnn中的box的选择其实算是regoin proposal的一部分,而在YOLO这个box直接通过回归方程计算出来的。在这里,confidence的计算包含两个部分:Pr(Object)*Iou(Object|GT),当格子中没有物体,则Pr(Object) = 0,否则等于1。可以从式子中看到,它包含了是否存在物体以及预测的精确度两个方面的信息。除此以外,对于bounding box会有四个坐标即x、y、w、h。
(3)对于每个含有物体的格子预测C个类别的概率信息,一个格子里面所有的Bbox公用一个类别向量。而且每个格子还要预测B个box,这样最后会得到S*S*(B*5+C)的张量。以上是根据ground truth box训练的部分。
(4)在test的时候,预测到了S*S*(B*5+C)的张量,把类别概率与confidence相乘,就得到每个bounding box 的class – specific confidence分数
(5)根据以上得到的分数设置阈值进行过滤,然后执行NMS处理,得到最终检测结果。