MacroSoft数据集MS-Celeb-1M

来源:互联网 发布:ubuntu安装深度商店 编辑:程序博客网 时间:2024/05/16 18:18

这两天要训练人脸。那么数据集首选MS-Celeb-1M.

人脸数据集:CAISA-WebFace,VGG-Face, MS-Celeb-1M, MegaFace.

介绍一下MS-Celeb-1M数据集:
MSR IRC是目前世界上规模最大、水平最高的图像识别赛事之一,由MSRA(微软亚洲研究院)图像分析、大数据挖掘研究组组长张磊发起,每年定期举办。参赛队伍被要求基于微软云服务,搭建包括人脸检测、对齐、识别的完整人脸识别系统,而且识别系统必须先通过远程实验评估.

reference paper:MS-Celeb-1M: A Dataset and Benchmark for Large-Scale Face Recognition published at ECCV 2016.

Training dataset, contains 10M images in version 1, is the largest publicly available one in the world
Task : 识别 1M 个明星 from their face images.

这篇文章提出要建立知识库。这是与传统不同的地方。

这里写图片描述

建立知识库有何好处?

首先,知识库上的每个人实体是unique,并且清楚地定义,而没有歧异,使得可以定义这样的大规模面部识别任务。 第二,每个实体自然具有多个属性(例如性别,出生日期,职业),为数据收集,清洗和多任务学习提供丰富且有价值的信息。

数据集是什么样的?

从1M个名人中,根据他们的受欢迎程度,选择100K个。然后,利用搜索引擎,给100K个人,每人搜大概100张图片。共100K*100=10M个图片。注意,这是lady gaga的图片,我去,化妆太夸张了吧。估计连人都难认出来。
这里写图片描述
下面这个是jobs。从中学时代到近50岁的时候图片。年龄跨度很大。注意绿色框是中学时代的jobs。红色的框是人工合成的(job本人以及电影中的扮演者共同合成)。也就是一张false。但是假的逼真。
这里写图片描述

测试集是如何制定的?

测试集包括1000个名人,这1000个名人来自于1M个明星中随机挑选。而且经过微软标注。每个名人大概有20张图片,这些图片都是网上找不到的。因此,你不可能专门训练这1000个人,之后对于测试结果非常好。

如何评估谁的识别系统好?

输入一张人脸,然后输出最多5个置信度,按百分比排名,排名最好的额,定位结果。
假设:输入为:
这里写图片描述
然后你的输出【89.3%,8.4%,1.1%,0.8%,0.4%】对应【李小龙,王浩,马龙,张继科,刘国梁】。
那么认为你的top1是评价的结果。本来的标注是李小龙。那么你的预测是正确的。

【附】:一份干净的,列表(训练集)。MS-Celeb-1M_clean_list.txt
http://pan.baidu.com/s/1hrD9MgW

================================Q&A=================================

1、如何将MsCelebV1-Faces-Aligned.tsv 转成jpg。

googleHow to extract the images and associating class labels from clickture_dog_thumb.tsv file?
这里写图片描述

2、转换完效果是什么?

这里写图片描述

注意:可以看到数据有噪声。如果想得到比较好的效果,请用上面干净的列表。

0 0
原创粉丝点击