论文笔记:Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
来源:互联网 发布:string.h 51单片机 编辑:程序博客网 时间:2024/06/06 18:05
摘要:
目前最先进的目标检测网络是基于区域建议算法推测目标位置。像SPPnet和Fast R-CNN已经减少了检查网络的运行时间,这时区域建议算法就成了一个瓶颈。本文中提出了一个区域建议网络(RPN),它和检测网络共享全图的卷积特征,因此区域建议基本不耗时。RPN是一个全卷积网络,在每个位置同时预测目标边界和目标得分。RPN是端到端训练的,生成高质量的区域建议,被Fast R-CNN用来检测。我们一进步通过共享它们的卷积特征来合并RPN和Fast R-CNN到一个网络中——使用最近流行的术语叫做“注意力机制”,RPN部分告诉整个网络去看哪里。对非常深的VGG-16模型,我们的检测系统在GPU上获得5帧每秒的速度,同时取得了PASCAL VOC 2007,2012和MS COCO数据集上取得了最好的目标检测准确率,每个图像只用300个建议框。
1.引言:
2.相关工作:
目标建议
目标检测的深度网络
3.Faster R-CNN:
3.1区域建议网络
区域建议网络(RPN)将一个图片(任意尺寸)作为输入,输出矩形目标建议框的集合,每一个框有一个目标得分。我们用全卷积网络对这个过程建模,本章会详细描述。因为我们的最终目标是和Fast R-CNN共享计算,我们假设这个两个网络共享一系列卷积层。在实验中,我们研究了ZF模型,有5个可共享的卷积层,VGG-16模型,有13个可共享的卷积层。
为了生成区域建议框,我们在最后一个共享卷积层输出的卷积特征图上滑动一个小的网络。这个小的网络把输入卷积特征图上的n*n的空间窗口作为输入。每个滑动窗口被映射到一个低维特征(256-d for ZF and 512-d for VGG,随后ReLU)。这种特征被输入到两个同级的全连接层——一个包围盒回归层(reg),一个包围盒分类层(cls)。本文使用n=3,注意输入图像的有效感受野很大(ZF是171像素,VGG是228像素)。图3以这种小网络在一个位置的情况举了个例子。注意,由于小网络是在滑动窗口上操作,所以全连接层网络(权值)被所有空间位置共享。这种架构很自然的使用n*n的卷积层加两个同级的1*1的卷积层实现(分别对应reg和cls)。
3.1.1anchor
在每个滑动窗口的位置,我们同时预测多个区域建议,每个位置的最大可能的建议数是k。所以reg层有4k个输出,编码了k个盒子的坐标,cls层输出2k个得分,估计每个建议框是目标或非目标的可能性。这k个建议框被参数化到k个称为anchors的参考盒子。一个anchor以当前的滑动窗的中心为中心,并对应一种尺度和长宽比(图3)。默认我们使用3种尺度和3种宽高比,在每个滑动位置产生9个anchor。对于尺寸是W*H(典型值约2400)的卷积特征图,总共有W*H*k个anchor。
我们anchor的设计提出了一个解决多尺度(长宽比)问题的新方案。如图1所示,有两种比较流行的多尺度预测的方法。一种是基于图像或者特征金字塔。一种是在特征图上使用多尺度的滑动窗口,称为卷积核金字塔。
因为这种基于anchor的多尺度设计,我们可以简单的使用在单一尺度的图像上计算的卷积特征,这些特征同样被Fast R-CNN检测器使用。多尺度anchor的设计是一种无需额外消耗来共享特征解决尺度问题的关键部分。
3.1.2损失函数
为了训练RPN,我们给每个anchor分配了一个二进制类别标签(是不是目标)。我们分配正标签给两类anchor:(i)与某个groud truth包围盒有最高IoU(交集并集比)重叠的anchor,(ii)与任意groud-truth的IOU重叠高于0.7的anchor。注意一个gt包围盒可能分配正标签给多个anchors。一般第二个条件足够决定正样本。我们分配一个负标签给与所有groud-truth的IoU比率都低于0.3的anchor。既非正也非负的anchor对训练目标没有任何作用。
有了这些定义,我们按照Fast R-CNN的多任务损失来最小化目标函数。一个图像的损失函数定义为:
这里,i是一个mini-batch中一个anchor的索引,pi是 anchor i为一个目标的预测概率。如果anchor为正,GT标签Pi*就是1,如果anchor为负,Pi*就是0。ti是一个向量,代表预测的包围盒的4个参数化坐标,ti*是与正anchor对应的GT包围盒的坐标向量。分类损失Lcls是两个类别(目标or非目标)的对数损失。对于回归损失,我们使用Lreg(ti, t*i) =R(ti - t*i) ,R是鲁棒损失函数(smoothL1)。p*i Lreg这项意味着只有正anchor(p*i = 1)才会激活回归损失。cls和reg层的数据分别由{pi}和{ti}构成。
这两项通过Ncls 和 Nreg以及一个平衡参数加权进行归一化。在我们现在的实现中(公开的代码中),cls项通过mini-batch的大小(Ncls = 256)进行归一化,reg项通过anchor位置的数量(Nreg~2,400)进行归一化。我们默认设置λ=10,这样cls和reg项差不多等权重。我们同样注意到归一化是不需要、可以被简化的。
对于边界盒回归,我们采用4个坐标参数:
…………可以想成一个从anchor盒子到一个旁边的groud-truth盒子的边界回归。
3.1.3训练RPN
3.2RPN和Fast R-CNN共享特征
(ii)近似联合训练。这个方案里,RPN和Fast R-CNN网络在训练中被合并到一个网络,如图2。在每个SGD迭代中,前向传播生成的区域建议在训练Fast R-CNN时被认为类似固定的、预计算的建议。反向传播跟往常一样发生,对于共享层,从RPN loss和Fast R-CNN loss反向传播的信号被组合在一起。这种方案实现简单。但是这种方案忽略了***,候选盒子的坐标也是网络的相应,所以是近似的。在我们的实验中,我们已经经验的发现这种方案产出结果近似,但是减少了25%-50%的训练时间。
3.3实现细节
- 论文笔记:Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks
- 论文笔记:Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks
- Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks论文笔记
- 论文笔记:Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks
- 【论文笔记】Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
- 论文笔记| Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
- Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks----论文笔记
- 论文笔记:Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks
- 论文笔记:Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks
- 论文笔记:Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
- Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks论文笔记
- RCNN学习笔记(3):《Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks》
- 【笔记】Faster-R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
- Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks
- Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
- RCNN(四)Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks
- Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
- Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
- 网络通信
- Oracle:单行函数
- 回溯法
- 《Android 群英传》读书笔记:自定义 View -- 弧线展示图
- UI控件 ->TextField
- 论文笔记:Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
- eclipse+maven搭建web项目
- 大数据(二十七)HBASE【Hbase 综述】
- Linux 文件权限全是问号,无法操作
- 洛谷P2604 [ZJOI2010]网络扩容
- 商城项目总结
- 语义分割(semantic segmentation) 常用神经网络介绍对比-FCN SegNet U-net DeconvNet
- 开发环境搭建记录
- cf div2 #444 (ABC)(D已补)