论文提要“Fast Feature Pyramids for Object Detection”

来源:互联网 发布:天香捏脸数据导入 编辑:程序博客网 时间:2024/05/16 18:20

很多目标检测器需要对图像进行多尺度精细搜索,传统方法的瓶颈是对每个尺度分别计算特征,本文使用比较大的间隔octave计算特征,之后对octave之间的尺度特征进行推算,节省了多尺度特征计算的时间,将目标检测提到实时。

动机:目前的目标检测方法如DPM,通常需要使用多通道,精细尺度采样及增强的归一化方法提升准确率,导致计算量大大增加。自然场景图像存在碎片统计特征,可以用于不同尺度直接的结构预测。

多尺度梯度直方图对比实验
由一个问题引出,给定图像在某一尺度的梯度特征,能够估计临近尺度的梯度特征?
梯度直方图是图像梯度角度的分布,每个像素对梯度直方图投票,权值是梯度幅值。作者做了一个有趣的实验,将图像进行上采样和下采样2倍,统计重采样前后梯度直方图某个bin的幅值比例rq=hq/hq 的分布,统计结果如下图所示:
这里写图片描述
对于上采样,均值为2,即为上采样的倍数,对于下采样,均值为0.34,为常数,比采样倍数小的原因是损失了高频信息。对于归一化的直方图,下采样直方图幅值变化的比例均值为0.26。

多尺度特征统计学习
1. 特征尺度法则
Ω 表示低层位移不变函数,C=Ω(I)表示图像的不同通道,定义fΩ(I) 为所有通道的加权和,即fΩ(I)=ijkwijkC(i,j,k)。令Is 表示I在s尺度的表示,Is的维度hs×ws是I的s倍。fΩ(Is)如下定义:
这里写图片描述

根据Ruderman和Bialek提出的自然场景图像与尺度间的法则,并考虑将图像分成K个晓得图像块,fΩ(Is1)fΩ(Is2)存在如下关系:
fΩ(Is1)/fΩ(Is2)=(s1/s2)λΩ+ε (4)
2. 估计λ
为了估计给定不同通道ΩλΩ,首先统计图像数据集特征随着尺度变换的均值:
μs=1NNi=1fΩ(Iis)/fΩ(Ii1)
根据公式(4),μs=sλΩ+E[ε]
μs应与log2(s)存在线性关系,不同特征的λ如下图所示
这里写图片描述
3. 单一图像偏差的幅值E[ε2] 随着尺度变换的比之s1/s2增加而增加

快速特征金字塔
1. 特征通道缩放
使用R(I,s)表示图像I使用尺度s重采样,给定图像I的特征C=Ω(I),仅使用C预测新尺度s对应的特征图像Cs=Ω(Is)。传统的方法是先缩放图像,再计算缩放后图像的特征。本文使用下述公式预测:
CsR(C,s)sλΩ (7)
下图显示了该方法的原理:
这里写图片描述
2. 快速特征金字塔
快速金字塔的原理如下图所示,传统的方法是先重采样图像,再计算每个尺度的特征。文中只在每个octave重采样图像计算特征,每个octave之间的尺度(4到12个尺度)对应的特征使用(7)式进行估计,使用octave进行估计的运算量是直接计算图像特征运算量的1/3。
这里写图片描述

目标检测器
1. Aggregated Channel Features(ACF)
给定一幅图像,计算几个通道C=Ω(I),对C中的每个block求和,之后对低分辨率图像进行平滑处理。特征即是累积通道中单个像素的查找表。使用boosting组合决策树进行目标检测。具体流程如下图所示
这里写图片描述
2. Integral Channel Features(ICF)
ICF使用积分图像进行特征提取,ICF检测器及尺度金字塔如下图所示
这里写图片描述
3. DPM
直接贴出实验结果,使用本文的方法提升后VOC数据20类测试的mAP只降低2%。
这里写图片描述

0 0
原创粉丝点击