检测数据集分析VOC+COCO_RGBD

来源：互联网发布：win7 内存优化编辑：程序博客网时间：2024/06/01 19:38

VOC数据集:(包含5个文件夹)

JPEGImages包含PASCAL VOC所提供的所有图片信息,包括训练图片和测试图片,以"年份_编号.jpg"格式命名.横向图尺寸大约在500*375左右,纵向图尺寸大约在375*500左右,基本偏差不会超过100,因为训练的第一步就是将图片resize到300*300或者500*500.

Annotations存放的是xml格式的标签文件,每个文件都对应JPEGImages文件夹的一张图片

ImageSets存放的是每一种类型的challenge对应的图像数据.其中Action下存放的是人的动作（例如running、jumping等等，这也是VOC challenge的一部分）

Layout下存放的是具有人体部位的数据（人的head、hand、feet等等，这也是VOC challenge的一部分）Main下存放的是图像物体识别的数据，总共分为20类。

Segmentation下存放的是可用于分割的数据。其中Main文件夹包含20个分类的train.txt,val.txt和trainval.txt,在txt文件中前边的数字表示名字,后边的1和-1表示正负样本的标签

SegmentationClass和SegmentationObject保存了物体分割后的图片

VOC数据集中待识别的物体种类有20类:person bird cat dog horse sheep aeroplane bicycle boat bus car motorbike train bottle chair table plant sofa monitor

超过11000图像,超过27000目标bounding box

Microsoft COCO数据集:

微软官方对coco的解释:https://link.springer.com/chapter/10.1007/978-3-319-10602-1_48

和VOC相比,coco数据集上小目标多,单幅图片目标多,物体大多非中心分布,更符合日常环境,所以coco检测难度更大.

1）Object segmentation（2）Recognition in Context（3）Multiple objects per image（4）More than 300,000 images（5）More than 2 Million instances（6）80 object categories（7）5 captions per image（8）Keypoints on 100,000 people

coco数据集以场景理解为目标,从复杂的日常场景中截取,图像中的目标通过精确的Segmentation进行位置的标定,包含91类目标.

用于:

数据集分类:分类需要二进制的标签确定目标是否在图像中.在机器学习领域的著名的数据集有CIFAR-10和CIFAR-100,在32*32影像上分别提供10类和100类,最近著名的分类数据集ImageNet,有22000类,每类500-1000张.

物体检测:通常通过bounding box确认目标位置.最近还有ImageNet数据下获取检测数据集,200类,400000张图片,350000个bounding box.

semantic scene labeling:分割需要像素级的标签,其中个别目标很难定义,比如街道和草地.

RGB-D 数据集:http://rgbd-dataset.cs.washington.edu/

RGB-D Object Dataset:包含300类common household objects. 该数据集使用Kinect风格的3D相机进行记录，该相机记录了30Hz时的同步和对齐的640x480 RGB和深度图像。将每个物体放置在转台上，并且将视频序列捕获一整个旋转。对于每个对象，有3个视频序列，每个记录的摄像机安装在不同的高度，以便从与地平线不同的角度观察对象。与许多现有数据集（如Caltech 101和ImageNet）不同，此数据集中的对象被分为两个category和instance。在这些数据集中，类狗包含来自许多不同狗的图像，并且无法判断两个图像是否包含相同的狗，而在RGB-D对象数据集中，类别苏打水可以分为物理上独特的instance，如百事可乐和百事可乐山露水罐数据集还为所有300个对象提供了地面真实姿态信息。

RGB-D Scenes Dataset:除了300个对象的独立视图之外，RGB-D对象数据集还包含包含数据集对象的自然场景的22个注释视频序列。场景涵盖常见的室内环境，包括办公室，会议室和厨房区。物体从不同的视点和距离可见，并且可能在一些框架中部分或完全遮挡。

参考:https://vision.in.tum.de/data/datasets/rgbd-dataset

参考:http://www.cnblogs.com/alexanderkun/p/4593124.html

阅读全文

0 0