论文总结： 2009-Pedestrian Detection: A Benchmark

来源：互联网发布：网络跳线架编辑：程序博客网时间：2024/06/05 23:05

参考文献：Dollar P, Wojek C, Schiele B, et al. Pedestrian detection: A benchmark[J]. Proc Cvpr, 2009:304-311.

论文的主要贡献：
1. 介绍了Caltech行人检测数据集（Caltech Pedestrian Dataset）；
2. 提出了更好的行人检测算法评价标准；
3. 在新数据集上对7个现有算法进行了评测；
4. 陈述了当前算在数据集上准确率不高的原因，给出了未来的研究方向。

Caltech行人检测数据集：
该数据集收集了城市中正常交通状态下大约10小时30Hz的行车记录，视频分辨率为640x480。通过标记其中的250,000帧获得了总计350,000个boundingbox （BB），其中包含行人的BB有2300个。数据拍摄于洛杉矶周边的5个场景，分为11个片段，将所有数据粗略的划分为两个部分分别组作为训练集和测试集，其中0-5作为训练集、6-10作为测试集。

人工标注及人工分类：
对于每帧中可以看到的行人，使用一个BB来标记行人的全部信息；
对于每帧中被部分遮挡的行人，使用一个BB来标记其可见部分，并使用另一个BB标记其全部信息（包括预测的遮挡部分）。
所有的BB被分为3类：独立行人（person，～1900），一群人（people，～300），难以分辨的行人（person？，～110）。

数据分析：
根据BB中行人的大小（高度像素值），将其分为了3个尺度：near（>=80像素）、medium（30-80像素）、far（<=30像素）。论文中提到，2009年以前的算法大多集中在对near级别的行人进行检测，而很少有文章对medium和far级别的行人进行检测。但是，最需要解决的是对medium级别的行人进行检测，根据作者的分析（相机焦距、行车速度等），near级别的行人即使检测出来了也来不及避让，而far级别的行人还需要很久才会到达，medium级别的行人距离车辆大约1.5s，恰好有足够的时间进行避让判断。
根据BB中行人被遮挡的面积，将其分为了4个遮挡级别：full occlusion（>=80%）、heavy occlusion（35%-80%）、partial occlusion（1-35%）、never occlusion（0%）。作者通过画出行人被遮挡部位的热力统计图得出行人的下半生有较大的概率被遮挡。
由于视野和地面约束的存在，行人都集中在图像中部较窄的视野范围中。

实验：
作者使用3套方案对7个行人检测算法进行了实验：
1. 使用其他数据集进行训练，在6-10上进行测试；
2. 对训练集0-5进行交叉验证；
3. 使用0-5进行训练，使用6-10测试。
结果表明，当前的算法在新数据集上的效果并不理想，还有非常大的提升空间。

评价方法：
早先的评价标准都是比较单个窗口的检测情况，然而单个窗口的检测准确率高并不意味着对整张图像、整个视频的检测准确率高，因此作者提出使用将整张图像的检测率作为评价标准。对于每一个BB，比较检测器检测出的BB与人工标注的BB，看它们交集与并集之比能否超过50%，若大于50%则判定为检测正确。对于整个图像，计算其FPPI（false positive per image）。

一句话总结：
作者详细介绍了Caltech行人检测数据集的数据分布、标注状况，提出了针对每幅图像的行人检测算法评价标准。

0 0