INRIA Person Dataset(INRIA 行人数据集)介绍

来源:互联网 发布:linux elf文件 破解 编辑:程序博客网 时间:2024/05/29 18:06

该文主要内容为译文:http://pascal.inrialpes.fr/data/human/

    该数据集是原作者在行人检测研究工作中在图像和视频中收集的直立人样本,该研究的细节见论文: Histograms of OrientedGradients for Human Detection和该作者博士毕业论文。该数据集分为两种格式:(a)具有对应注释文件的原始图像(b)原始的负样本图像和标准化64*128像素的正样本图像(用于CVPR论文中的)

注意

每张图像中只标有直立行人(身高>100)

注释可能不正确,特别是有时注释框边界的可能在对象的外部或内部。

数据集内有6个文件夹,如图1所示。

                 

                                  图1  解压后文件夹

原始图像

‘Train’文件夹和’Test’文件夹分别对应于原始训练图像和测试图像。这两个文件夹的每个文件夹内都有三个子文件夹。(a)’pos’(正样本的训练和测试图像(图像分辨率不定))(b)’neg’(负样本的训练或测试图像(图像分辨率不定))(c)‘annotations’(Pascal Challenge格式的正样本的注释文件)

标准化图像

文件夹’train_64*128_H96’和’test_64*128_H96(注:*号代表乘号)对应于标准化(标准化的意思是图像有相同的分辨率)的数据集。两个文件夹中都有子文件夹。(a)’pos’(该文件内实际为根目录下'96*160H96'文件夹下内容,是以人为中心左右镜像的标准化正面训练或测试图像)。(b)’neg’(包含原始的负样本训练或测试图像)。注意:’train_64x128_H96\pos’中的图像是96*160像素(每边16像素的边距)。文件夹’test_64x128_H96\pos’中的图像是70*134像素(每侧边距3个像素)。这样做是为了避免边界条件(从而避免分类器中的任何特定偏差)。在这两个文件夹中,使用居中的64*128像素窗口进行原始检测任务。

根目录下虽然有六个文件夹,但是实际上四个。

负样本窗口

为了从标准化图像生成训练所用的负样本,从提供的初始负训练级的1218个负面训练照片中随机抽取固定的12180个窗口(每个原始负样本生成10个窗口)。对于每个检测器和参数组合,对初步检测器进行训练,并对所有负样本图像彻底搜索(在比例尺空间金字塔上)找到误检样本(困难样本)。得分大于0的所有样本(英文直译,应该是指误检样本)被认为是困难样本。然后使用同样的方法利用该增强级(初始12180+困难样本)重新训练以产生最终的检测器。如果需要,可以对该困难样本进行二次抽样 ,使最终训练级的特征描述向量适合与1.7GB的RAM进行SVM训练。


以下英文应该是指多尺度检测,但本人水平有限,并未理解。

Starting scale in scale-space pyramid above is one and we keep adding one more level in the pyramid till floor(ImageWidth/Scale)>64 and floor(ImageHeight/Scale)>128. Scale ratio between two consecutive levels in the pyramid is 1.2. Window stride (sampling distance between two consecutive windows) at any scale is 8 pixels. If after fitting all windows at a scale level some margin remains at borders, we divide the margin by 2, take its floor and shift the whole window grid. For example, if image size at current level is (75,130), margin (with stride of 8 and window size of 64,128) left is (3,2). We shift all windows by (floor(MarginX/2), floor(MarginY/2)). New image width and height are calculated using the formulas: NewWidth=floor(OrigWidth/Scale) and NewHeight=floor(OrigHeight/Scale). Here scale=1 implies the original image size. 

Also while testing negative images, to create negative windows, we use the same sampling structure.

 


阅读全文
0 0