PASCAL VOC2012 Chanllge 及其Dataset介绍

来源：互联网发布：c语言购物卡制卡系统编辑：程序博客网时间：2024/06/07 00:31

PASCAL：pattern analysis,statistical modelling and computational learning
VOC：visual object classes

该挑战的主要目的是识别真实场景中一些类别的物体。在该挑战中，这是一个监督学习的问题，训练集以带标签的图片的形式给出。这些物体包括20类：

Person: person
Animal: bird, cat, cow, dog, horse, sheep
Vehicle: aeroplane, bicycle, boat, bus, car, motorbike, train
Indoor: bottle, chair, dining table, potted plant, sofa, tv/monitor

该挑战主要包括三类任务：分类（classification），检测（detection），和分割（segmentation）

1. Classification/Detection Competitions

Classification：对20类中的每一类，预测test image中该类的presence/absence
Detection：预测test image中物体的bounding box以及该物体属于20类中的哪一类

对于这两类任务，允许参与者通过两种方式参与：

使用除VOC测试集以外的任何数据集来构建、训练他们的分类/检测系统
仅使用VOC提供的训练/校验集来构建、训练分类/检测系统

前者是为了衡量目前在这些任务上，我们的方法到底可以到达怎样一种程度的成功；后者则是为了建立一种在指定数据集上最为成功的方法。

2. Segmentation Competition

Segmentation：在test image上产生一个像素级别的分割，给出每一个像素属于哪一类，包括“背景”类。

3. Action Classification Competition

Action Classification：预测静态图像中人做出的动作。
该任务有两种形式，一种是：图像中做出动作的人被一个bounding box框出来；另一种是：图像中做出动作的人仅被一个点标示出来，该点落在这个人身体的某处。后者面向的是基于图像中只给定一个人的大概位置的方法。

4. ImageNet Large Scale Visual Recognition Competition

该任务的内容是预测图像中的内容，这对图像检索、自动标注等目标的实现有重要意义。训练集是ImageNet数据集（10,000,000张标注了的图像，包含10,000多类物体）的一个子集。测试集在给出的时候没有任何的标注、分割和标签。该任务的目的是提出一种方法，可以产生一些标签，对应着图像中出现了哪些物体。VOC2012中只要求识别图像中出现的主要物体，不要求指定物体出现的位置，即只识别不定位。

5. Person Layout Taster Competition

Person Layout：即人体轮廓布局。该任务的目标是预测人体部位（头，手，脚）的bounding box和对应的label》

数据集

训练集由一套图像组成：每个图像拥有一个对应的标注文件，给出了图像中出现的物体的bounding box和class label，该物体属于上述20类中的某一类。同一张图像中，可能出现属于多个类别的多个物体。

这些图像中的一部分图像还拥有像素级的标注，用于segmentation competition.

用于action classification的图片集与用于classification/detection/segmentation的图片集不相交。它们被部分地标注上了图像中人的bounding box，参考点和动作。

用于person layout taster的图像，被额外的标注上了人的身体部位（头、手、脚），其测试集与主任务（classification/detection）的测试集不相交。

数据集按1:1的比例被分为训练（验证）集和测试集。这两部分的图像中类别的分布也大致相等。

0 0