faster R-CNN 论文阅读

来源:互联网 发布:玻璃心 知乎 编辑:程序博客网 时间:2024/05/29 17:38

Faster R-CNN 论文阅读

1. Introduction

目标检测在region proposal 方法的推动下获得了很大成功,SPP-Net和fast R-CNN使用共享卷积层加速了计算速度,目前在test阶段的瓶颈在于region proposal。
目前的region proposal都太耗时了,这篇论文提出了RPN(Region Proposal Networks),使得面对检测任务,基本是cost-free的。

没什么要说的

3. Faster R-CNN

Faster R-CNN包含了两个部分,一个是RPN,一个是fast R-CNN. 整个系统是单一、统一的网络。用最近比较时髦的术语“attention”来说,RPN就是告诉fast R-CNN往哪看的。
Faster R-CNN网络框架

3.1 Region Proposal Networks

这里使用了两种卷积网络,一种是ZF的,一种是VGG-16。论文配图以ZF为例。RPN网络在最后一个卷积层之后开始,以ZF为例,最后一个卷积层的输出为13×13×256。首先RPN接了一个n×n×256的卷积层,这里的n = 3. 这是相当于采用滑动窗口的形式来提出proposal,每一个滑动的窗口对应回原图的region都是所提出的region.随后接了两个1×1的全卷积层,分别为分类层(cls)和回归层(reg)。

RPN

3.1.1 Anchors

对于feature map 当中的每一个点,都可以对应回原图,使用不同的尺寸和长宽比,可以得到多个原图的boxes, 叫做anchors. 论文用了3个尺度,3个长宽比,得到k = 9.
所以对于一个W×H的feature map,可以得到 WHk个anchors.

平移不变
anchor具有平移特性。当在图片当中平移一个object后,proposal 也能平移,function也会预测到正确位置。

3.1.2 Loss Function

对于anchors, 正样本:

  • 与ground truth有着最高的IOU的anchors
  • 与任意一个ground truth有着大于0.7的IOU的anchors

所以一个ground truth box可以对应多个正的anchors,而且至少对应一个。通常第二个条件就足以生成充足的正样本了,但是在某些稀少的情况下第二个情况或许没有正样本,只能使用第一个条件来产生一些正样本。

负样本的定义是对于所有的ground truth 的IoU都小于0.3.

Loss 函数的定义:
这里写图片描述

这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述

3.1.3 Training RPNs

每次的mini-batch都从一张图上产生256个anchors,正负比例基本1:1。
前60K学习率为0.001 ,接下来20k学习率为0.0001.
momentum为0.9, weight decay为0.0005

3.2 RPN与fast R-CNN之间共享卷积层特征

4步轮流训练
1. 从pre-trained ImageNet网络初始化RPN网络,训练RPN网络。
2. 从pre-trained ImageNet网络初始化fast R-CNN网络,并用1当中的RPN网络得到region proposals, 训练自己的网络,此时两个网络的卷积层是不一样的,不共享的。
3. 使用fast R-CNN的卷积层初始化RPN网络的卷积层, fine-tune RPN网络的后面的特有的层。
4. 然后用3中的RPN网络生成region proposals,fine-tune fast R-CNN网络后面特有的层。

3.3 实现细节

训练时为了便于收敛去掉越过边界的那些anchors,但是测试时还是保留了,不过会裁剪到边界。这样对于1000×600的图片,原本有60×40×9个anchors,去掉之后大约还有6000个anchors.
RPN的proposals有很大的重叠度,采用NMS来去掉重叠,采用的IOU阈值为0.7

4 实验

4.1 在Pascal VOC上的实验

本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:

  • Markdown和扩展Markdown简洁的语法
  • 代码块高亮
  • 图片链接和图片上传
  • LaTex数学公式
  • UML序列图和流程图
  • 离线写博客
  • 导入导出Markdown文件
  • 丰富的快捷键

快捷键

  • 加粗 Ctrl + B
  • 斜体 Ctrl + I
  • 引用 Ctrl + Q
  • 插入链接 Ctrl + L
  • 插入代码 Ctrl + K
  • 插入图片 Ctrl + G
  • 提升标题 Ctrl + H
  • 有序列表 Ctrl + O
  • 无序列表 Ctrl + U
  • 横线 Ctrl + R
  • 撤销 Ctrl + Z
  • 重做 Ctrl + Y

Markdown及扩展

Markdown 是一种轻量级标记语言,它允许人们使用易读易写的纯文本格式编写文档,然后转换成格式丰富的HTML页面。 —— [ 维基百科 ]

使用简单的符号标识不同的标题,将某些文字标记为粗体或者斜体,创建一个链接等,详细语法参考帮助?。

本编辑器支持 Markdown Extra ,  扩展了很多好用的功能。具体请参考Github.

表格

Markdown Extra 表格语法:

项目 价格 Computer $1600 Phone $12 Pipe $1

可以使用冒号来定义对齐方式:

项目 价格 数量 Computer 1600 元 5 Phone 12 元 12 Pipe 1 元 234

定义列表

Markdown Extra 定义列表语法:
项目1
项目2
定义 A
定义 B
项目3
定义 C

定义 D

定义D内容

代码块

代码块语法遵循标准markdown代码,例如:

@requires_authorizationdef somefunc(param1='', param2=0):    '''A docstring'''    if param1 > param2: # interesting        print 'Greater'    return (param2 - param1 + 1) or Noneclass SomeClass:    pass>>> message = '''interpreter... prompt'''

脚注

生成一个脚注1.

目录

[TOC]来生成目录:

  • Faster R-CNN 论文阅读
    • Introduction
    • related work
    • Faster R-CNN
      • 1 Region Proposal Networks
        • 11 Anchors
        • 12 Loss Function
        • 13 Training RPNs
      • 2 RPN与fast R-CNN之间共享卷积层特征
      • 3 实现细节
    • 实验
      • 1 在Pascal VOC上的实验
    • 快捷键
    • Markdown及扩展
      • 表格
      • 定义列表
      • 代码块
      • 脚注
      • 目录
      • 数学公式
      • UML 图
    • 离线写博客
    • 浏览器兼容
    • 参考文献

数学公式

使用MathJax渲染LaTex 数学公式,详见math.stackexchange.com.

  • 行内公式,数学公式为:Γ(n)=(n1)!nN
  • 块级公式:

x=b±b24ac2a

更多LaTex语法请参考 这儿.

UML 图:

可以渲染序列图:

Created with Raphaël 2.1.0张三张三李四李四嘿,小四儿, 写博客了没?李四愣了一下,说:忙得吐血,哪有时间写。

或者流程图:

Created with Raphaël 2.1.0开始我的操作确认?结束yesno
  • 关于 序列图 语法,参考 这儿,
  • 关于 流程图 语法,参考 这儿.

离线写博客

即使用户在没有网络的情况下,也可以通过本编辑器离线写博客(直接在曾经使用过的浏览器中输入write.blog.csdn.net/mdeditor即可。Markdown编辑器使用浏览器离线存储将内容保存在本地。

用户写博客的过程中,内容实时保存在浏览器缓存中,在用户关闭浏览器或者其它异常情况下,内容不会丢失。用户再次打开浏览器时,会显示上次用户正在编辑的没有发表的内容。

博客发表后,本地缓存将被删除。 

用户可以选择 把正在写的博客保存到服务器草稿箱,即使换浏览器或者清除缓存,内容也不会丢失。

注意:虽然浏览器存储大部分时候都比较可靠,但为了您的数据安全,在联网后,请务必及时发表或者保存到服务器草稿箱

浏览器兼容

  1. 目前,本编辑器对Chrome浏览器支持最为完整。建议大家使用较新版本的Chrome。
  2. IE9以下不支持
  3. IE9,10,11存在以下问题
    1. 不支持离线功能
    2. IE9不支持文件导入导出
    3. IE10不支持拖拽文件导入

参考文献

  1. https://arxiv.org/pdf/1506.01497.pdf
  2. to do
  3. to do


  1. 这里是 脚注内容. ↩
原创粉丝点击