详细介绍:Visual Object Classes Challenge 2012(VOC2012)

来源:互联网 发布:淘宝帐号交易平台 编辑:程序博客网 时间:2024/06/10 00:46
# [Visual Object Classes Challenge 2012(VOC2012)](http://host.robots.ox.ac.uk/pascal/VOC/voc2012/index.html#organizers)


# Contents
- [Introduction]()
- [Data]()
- [VOC2012 vs. VOC2011]()
- [Development kit]()
- [Test data]()
- [Useful software]()
- [Timetable]()
- [Submission of results]()
- [Publication policy]()
- [Citation]()
- [Database rights]()
- [Organizers]()
- [Acknowledgements]()
- [Support]()
- [History and background]()
## Introduction
 竞赛的目标是从真实场景中的一些物体中识别出一类物体。训练我们提供的,有标记的图片实际上是一个有导师学习。20类物体列表如下:
- 人:人
- 动物:鸟,猫,牛,狗,马,羊
- 机动车类:飞机,自行车,船,巴士,小轿车,摩托车,火车
- 室内物品:瓶子,椅子,餐桌,花瓶,沙发,电视/显示器
主要有三类物体识别竞赛:分类,检测,和分割,动作分类,和由Imagenet驱动的大规模识别赛。另外还有一个"taster" competition


## Classification/Detection Competitions
1. Classification: 区分出一张图片中是否存在20类中的一类中的物体。
2. Detection:给出物体的位置和类别。位置用外切矩形框表示,类别就是20类中的某一类。
参与者可以参与任意一个,或者两个都参与。也可以选择只解决20中物体中的任意一种,或者全部种类。参与者可以用两种方式参与竞赛:
    1. 可以用任意方法和任意数据(包括我们提供的测试数据)来训练。
    2. 只能用我们提供的训练/验证数据来构建系统。


## Segmentation Competition
- Segmentation: 在每个像素上都标记出,这个像素属于哪一类。


## Action Classification Competition
- Action Classification:静止图像上预测人物动作。
2012年,动作识别竞赛有两点变化。这两点变化是基于在被测试图片的什么位置的人的动作被预测的:(1)需要输出做动作的这个人的外接矩形框 (2)用一个点,点在这个人的身体的任意位置。竞赛的目的是测试算法在给出任务大概位置的性能,这可能类似一个通用的人体检测器。


## ImageNet Large Scale Visual Recognition Competition


竞赛的目的是为了做基于图片内容估计的图像检索和基于大规模手工标记ImageNet数据集(10000000 标记图片 10000+类物体)训练的自动标记。测试图片,不给出任何标记,算法需要标记出图片中出现了哪些种类的物体。这个竞赛的初始目标是给出图片中含有的主要目标,并不给出位置。


更多细节可以从参考 [ImageNet](http://www.image-net.org/challenges/LSVRC/2012/index) 网站.


## Person Layout Taster Competition


- Person Layout: 预测出人头,手,脚的外切矩形框。


## Data
点击[这里](http://host.robots.ox.ac.uk/pascal/VOC/voc2012/index.html#devkit),了解怎样下载训练/测试数据。  
这里提供的训练数据包括一个图片集合,以及每张图的标记文件,标记文件里会给出外切矩形框和框内物体类别(含在20类之内)。注意同一张图片可能含有多种目标,多类物品。  
 
 一个子序列被标记为像素分割,用来做分割竞赛。  
  
动作分类的图片跟 上面的任务(分类/检测/分割)不链接。这个需要标记部分人的位置,点,动作即可。是让所有标记人员按照[实施规范](http://host.robots.ox.ac.uk/pascal/VOC/voc2012/action_guidelines/index.html)来标记的。  


人物头手脚分布的图片,测试集与主任务不衔接,所以额外标记了人的部位(头/手/脚).  


数据将为分两阶段发布:
- 第一阶段:先发布一个开发工具包,由训练/验证集合、测试软件(matlab)。验证集的一个目的是在比赛之前证明测试软件是怎样工作的。  
- 第二阶段:发布竞赛用的测试集。像VOC2008-2011一样,测试集的数据将不会给出答案。


数据将被分出50%用于训练,另外50%用于测试。训练/验证 集 和测试集的分布一样。数据的相关统计信息点击[这里](http://host.robots.ox.ac.uk/pascal/VOC/voc2012/dbstats.html)获取。


## Example images
 图片例子 和 其对应的分类/检测/分割/动作标记,还有人体布局标记都可以在下面在线看到:
 - [分类/检测例图](http://host.robots.ox.ac.uk/pascal/VOC/voc2012/examples/index.html)
 - [分割例图](http://host.robots.ox.ac.uk/pascal/VOC/voc2012/segexamples/index.html)
 - [动作分类例图](http://host.robots.ox.ac.uk/pascal/VOC/voc2012/actionexamples/index.html)
 - [人体布局例图](http://host.robots.ox.ac.uk/pascal/VOC/voc2012/layoutexamples/index.html)




## VOC2012 vs. VOC2011
与2011相比,增加了分割和动作分类的量,分类检测的标记量并没有变化。下面列出了VOC2012与VOC2011的几点不同:
- Classification/Detection: 2012 的数据集跟2011一样。但是参与者不允许测试voc2011的测试集,测试服务器已经关闭了这个选项。
- Segmentation:2012数据集,包含了2008-2011的数据。在此基础上又增加了一些。前些年分配的训练/测试集中的数据都被包含了。总图片数目由7062增加到9993.
- Action Classification:增加了额外的图片。训练/测试集都有覆盖到。除了框,也标记了参考点,来用于无框动作分类任务。
- Person Layout Taster: 2012数据集与往年一样。没有额外增加标记数据。参与者不要用往年的集合来测试,服务器也关闭了相关选项。




## Development Kit 


开发工具包由 训练/测试 数据, 用于读取标记数据和各种竞赛模拟的matlab代码。
开发工具包是可用的:
- 下载[训练/测试数据](http://host.robots.ox.ac.uk/pascal/VOC/voc2012/VOCtrainval_11-May-2012.tar)(2GB tar 文件)
- 下载[开发工具代码和文档](http://host.robots.ox.ac.uk/pascal/VOC/voc2012/VOCdevkit_18-May-2011.tar)(500KB tar文件)
- 下载[PDF文档](http://host.robots.ox.ac.uk/pascal/VOC/voc2012/devkit_doc.pdf)(500KB PDF)
- 查看用于标记VOC2011的[实施规范](http://host.robots.ox.ac.uk/pascal/VOC/voc2012/guidelines.html)(VOC2011)
- 查看用于标记动作任务图片的[实施规范](http://host.robots.ox.ac.uk/pascal/VOC/voc2012/action_guidelines/index.html)




## 测试数据


测试数据会在适当的时候依据时间表来开放。注意:测试数据中,只有动作分类任务和人体布局任务有标记。例如在2008-2011,没有计划去公开所有的测试集的答案。组织者将为提供评价结果。




## 有用的软件


以下是可能对你有用的软件,由前几届的参与者贡献:
- [Encoding Methods Evaluation Toolkit](http://www.robots.ox.ac.uk/~vgg/software/enceval_toolkit/)  
Ken Chatfield, Victor Lempitsky, Andrea Vedaldi, Andrew Zisserman
- [CPMC:Constrained Parametric Min-Cuts for Automatic Object Segmentation](http://sminchisescu.ins.uni-bonn.de/code/cpmc/)  
Joao Carreira and Cristian Sminchisescu.
- [Automatic Labelling Environment(Semantic Segmentation)](http://cms.brookes.ac.uk/staff/PhilipTorr/ale.htm)  
Lubor ladicky, Philip H.S. Torr.  
- [Discriminatively Trained Deformable Part Models](http://people.cs.uchicago.edu/~pff/latent/)  
Pedro Felzenszwalb, Ross Girshick, David McAllester,Deva Ramanan.  
- [Color Descriptors](http://staff.science.uva.nl/~ksande/research/colordescriptors/)  
Koen van de Sande, Theo Gevers, Cees Snoek.


## Timetalbe
- May 2012: 开发工具包可用。
- 25th June 2012:测试集可用。
- 23rd September 2012(Sunday,2300 hours GMT):结果提交期限 (没有延期)
- 12th October 2012:与 [ECCV2012](http://eccv2012.unifi.it/)合办竞赛研讨会

## Submission of Rusults


参与者每种方法提交一个结果即可。只是改变了算法参数不视为用了不同的方法。所有的参数必须是单独用训练和测试集训练出来的数据。  
结果需提交到指定评价服务器:
-  [PASCAL VOC Evaluation Server](http://host.robots.ox.ac.uk:8080/)
你的结果文件必须有正确的格式。格式要求的细节将会在开发工具文档里给出。结果文件应被打包在一个单独文件中(tar/tgz/tar.gz)


参与者提交几种不同的方法(注意不同结果的定义)的结果时,需要为每种方法提供一个独立的存档  


除了结果文件的格式,参与者其他的注意事项:
- 联系方式和附属
- 列出贡献
- 描述方法(最少500字)-看下面  
从2011年开始,我们要求所有的提交都要包含所采用方法的简短介绍,最少500字。这个摘要将会用于竞赛研讨会上的发言。如果你不能提交介绍,因为商业原因,或者其他原因,你需要联系组织者讨论一下。下面是两个描述的例子,这例子是前一届竞赛的研讨会上,用于分类和检测的方法所给出的。注意,这是我们自己的总结,不是原作者的。
- #### Example Abstract: Object classification
  Based on the VOC2006  QMUL description of LSPCH by Jianguo Zhang,Cordelia Schmid,Svetlana Lazabnik, Jean Ponce in sec 2.16 of The PASCAL Visual Ojbect Classes Challenge 2006(VOC2006) Results.  
  
We make use of a bag-of-visual-words method(cf Csurka et al 2004).Regions of interest are detected with a Laplacian detector(Lindeberg, 1998), and normalized for scale. A SIFT descriptor(Lowe 2004) is then computed for each detection. 50,000 randomly selected descriptors from the training set are then vector quantized (using k-means) inti k=3000 "visual words"(300 for each of the 10 classes)。Each image is then represented by the histogram of how often each visual word is used. We also make use a spatial pyramid scheme (Lazebnik et al, CVPR 2006). We first train SVM classifiers using the chi^2 kernel based on the histograms of each level in the pyramid. The outputs of these SVM classifiers are then concatenated into a feature vector for each image and used to learn another SVM classifier based on a Gaussian RBF kernel.  
- #### Example Abstract: Object detection
Based on "Object Detection with Discriminatively Trained Part Based Models";Pedro F. Felzenszwalb, Ross B. Girshick, David McAllester and Deva Ramanan;IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol.32, No. 9,September 2010.  
We introduce a discriminatively-trained parts-based model for object detection. The model consists of a coarse "root" template of HOG features(Dalal and Triggs,2006),plus a number of higher-resolution part-based HOG templates which can translate in a neighborhood relative to their default position.The responsed of the root and part templates are combined by a latent-SVM model,where the latent variables are the offsets of the parts.We introduce a novel training algorithm for the latent SVM.We also make use of an iterative training procedure exploiting "hard negative" examples, which are negative examples incoorectly classified in an earlier iteration.Finally the model is scanned across the test image in a "sliding-window" fashion a veriety of scales to produce candidate detections,followed by greedy non-maximum suppression. The model is applied to all 20 PASCAL VOC object detection challenges.  


如果你需要提交更加详细的介绍,将其包好到结果包里面即可。


## Best Practice


VOC竞赛接受两类参与方式:
1. 用我们提供得训练+验证数据训练得到的系统
2. 用所有你自己能得到的数据来训练得到的系统,比如说商业系统。  
两种情况下,测试数据必须保持独立性,不能以任何形式用于训练或者微调系统,比如:在测试数据上实验多次最好的参数,然后提交一个最好的。  


如果采用我们提供的数据,必须单独使用trainval(训练+验证)集。其中一种方式把这个集合分为训练和验证集合(如开发工具包中那样)。其他方案比如n类交叉验证也有同等效果。最终的系统只能在测试数据集上运行一次。  


VOC2007时,我们给出了所有数据的标注(涵盖:训练、验证和测试数据),但是现在我们没有给出测试集的标注。替代方案,你需要将测试集的数据提交到一个评价服务器上。  


算法系统在测试集上只能运行一次,所以我们不允许给服务器提交多次结果(事实上,同样算法的提交次数是严格限制的),这是为了防止测试数据被用来微调。  


我们鼓励你在竞赛后期,用评价系统来公布测试结果。如果你希望来进行不同方法的比较,或者设计选择,比如特征的子集,这里有两种可选方式:
1. 用所有的VOC2007数据,这个数据里,所有的标注都可用
2. 公布用单独用最新trainval集交叉验证的结果  


#### 注册评价服务器时所需要电子邮箱地址的政策
为了得到最好的实验效果,我们严格控制向服务器提交结果的次数。为了进行有效监测,注册评价服务器的时候,你需要提供机构的email。这是为了防止有人用不同的邮箱提交多次结果。机构邮箱包含科学院类的,比如name@university.ac.uk,包含公司类的,但是不包含个人的,比如 name@gmail.com 或者 name@123.com.


## 发布政策
关于竞赛的所有信息基本上都在竞赛的主页上。  
每种提交的方法的细节都会被在线发布,比如分类任务中,每个图片的置信度;检测任务中的每个框。这样做可以让其他参赛者看进行更多细节分析,然后和自己的方法做比较。发布的结果将不会匿名-提价结果,就意味了参赛者同意了将结果发布在网上。


## 引用
如果你用了VOC2012数据,你需要在出版物上引用下面的参考(竞赛后准备好的)
@misc{pascal-voc-2012,
author = "Everingham, M. and Van~Gool, L. and Williams, C. K. I. and Winn, J. and Zisserman, A.",
title = "The {PASCAL} {V}isual {O}bject {C}lasses {C}hallenge 2012 {(VOC2012)} {R}esults",
howpublished = "http://www.pascal-network.org/challenges/VOC/voc2012/workshop/index.html"} 
## 数据库权利
VOC2012数据包含来自"flickr"网站的数据。使用这些数据必须在遵循以下条款:
- [“flickr" terms of use](http://www.flickr.com/terms.gne?legacy=1)
为了竞赛,图片的标识,比如来源,所有者的名字被和谐掉了。关于贡献者的细节,都包含在我们竞赛后,将要发布的数据的标注文件中。对这些数据的所有查询或者问讯都可以直接问大赛的组织者[organizers](http://host.robots.ox.ac.uk/pascal/VOC/voc2012/index.html#organizers)


## 组织者


-  Mark Everingham(University of Leeds)
-  Luc van Gool(ETHZ, Zurich)
-  Chris Williams (University of Edinburgh)
-  John Winn(Microsoft Research Cambridge), [john@johnwinn.org](mailto:john@johnwinn.org)
-  Andrew Zisserman (University of Oxford)


## 感谢


我们衷心感谢以下人员,花费了大量时间来标注VOC2012数据集:
Yusuf Aytar,Lucia Ballerini, Hakan Bilen,Ken Chatfield, Mircea Cimpoi,Ali Eslami,Basura Fernando,Christoph Godau,Bertan Gunyel,Phoenix/Xuan Huang,Jyri Kivinen,Markus Mathias,Kristof Overdulve,Konstantinos Rematas,Johan Van Rompay,Gilad Sharir, Mathias Vercruysse,Vibhav Vineet,Ziming Zhang,Shuai Kyle Zheng.


感谢 Yusuf Aytar对评价服务器的持续开发和维护,感谢 Ali Eslami对结果的分析.


## 支持
在模式分析,统计建模和机器学习方面拥有完美经验的 EU-funded PASCAL2 网 支持了此次竞赛的准备和运行。  
## 历史背景
从2005年开始,主要的竞赛,每年都有举行。下面的历史表格提供过了我们的一些选择和在运行竞赛上的经验,给出了对2007年的方法和结果的更深层次的分析:


## PASCAL 视觉物体分类(VOC)挑战赛
Everingham, M., Van Gool, L.,Williams, C. K. I.,Winn, J. and Zisserman,A.
internationaljournal of Computer Vision,88(2),303-338,2010  
[Bibtex source](http://host.robots.ox.ac.uk/pascal/VOC/pubs/everingham10.html#bibtex) | [Abstract](http://host.robots.ox.ac.uk/pascal/VOC/pubs/everingham10.html#abstract) | [PDF](http://host.robots.ox.ac.uk/pascal/VOC/pubs/everingham10.pdf)
 下表给出了VOC发展的主要阶段。
 


Year | Statistics | New developments | Notes  
---|---|--- |---
[2005](http://host.robots.ox.ac.uk/pascal/VOC/voc2005/index.html)|Only 4 classes:bicycles,cars,motorbikes,people.Train/validation/test: 1578 images containing 2209 annotated objects|Two competitions: classification and detection|图片来自已存在的大规模数据集,不是flickr的子集,数据集市单独的|
[2006](http://host.robots.ox.ac.uk/pascal/VOC/voc2006/index.html)|10类:自行车,巴士,小汽车,猫,牛,狗,马,摩托车,人,羊。训练/验证/测试:2618张图片包含4754个标注物体|数据来自 flickr和微软剑桥数据集(MSRC)| 微软剑桥(msrc)图片比flickr的图片简单,只包含一种感兴趣的目标。这个数据集是独立的。|
[2007](http://host.robots.ox.ac.uk/pascal/VOC/voc2007/index.html)|20类:  1.  人物类:人  2. 动物类:鸟、猫、牛、狗、马  3. 机动类:飞机、自行车、船、巴士、小轿车、摩托车、火车  4.  室内:瓶子、椅子、餐桌、盆栽、沙发、电视/显示器 训练/验证/测试:9963图片包含24640标记物体|1. 分类数目由10增加到20  2. 分割竞赛的引入  3.人体布局竞赛的引入 4.截断标志添加到了标注中 5.评价分类效果变为平均准确度,前面是ROC-AUC|今天建立了20类,这个数目会确定下来不在变动。这将是最后一年,我们公布测试数据的标注结果。
[2008](http://host.robots.ox.ac.uk/pascal/VOC/voc2008/index.html)|20类,数据被分为50%训练/验证,50%测试。训练/验证数据有4340张图片包含10363个被标注的物体|遮挡标志加入标注文件、测试数据不在提供标注文件、分割和人体分布集合包含2007面的图片||
[2009](http://host.robots.ox.ac.uk/pascal/VOC/voc2009/index.html)|20类。训练/验证集合有7054张图,包含17218个ROI标注物体和3211个分割|所有任务都有新图片,前面的几年,每年都有新的数据集发布;允许每年增加图片数据,意味着测试结果可以和往年进行比教;分割变成一个标准竞赛(从一个尝试)|没有在额外图片上添加复杂标志(一个遗漏);测试数据标注没有公布|
[2010](http://host.robots.ox.ac.uk/pascal/VOC/voc2010/index.html)|20类:训练/验证/测试数据有10103张图片,包含23374个ROI标注物体和4203个分割|动作识别尝试引入;引入基于ImageNet的大规模分类竞赛;用亚马逊的自动标注平台Turk来自动标注|计算AP的方法变了。现在使用所有的数据点而不是TREC类型的点;不发布测试数据的标注|
[2011](http://host.robots.ox.ac.uk/pascal/VOC/voc2011/index.html)|20类:训练/验证包含11530张图片,包含27450个ROI标注物体和5034个分割|动作分类尝试增加为10个类别和其他|布局标注没有完成:一些人被标注了,一些人没有被标注|
[2012](http://host.robots.ox.ac.uk/pascal/VOC/voc2012/index.html)|20类:训练/验证数据有27450张图片包含27450个ROI标记物体和6929个分割|分割数据增加;动作分类的数据,在身体上额外增加了一个参考点|分类、分割、和身体布局的数据集和2011年的一样|