MacroSoft数据集MS-Celeb-1M

来源：互联网发布：ubuntu安装深度商店编辑：程序博客网时间：2024/06/04 18:15

这两天要训练人脸。那么数据集首选MS-Celeb-1M.

人脸数据集：CAISA-WebFace,VGG-Face, MS-Celeb-1M, MegaFace.

介绍一下MS-Celeb-1M数据集：
MSR IRC是目前世界上规模最大、水平最高的图像识别赛事之一，由MSRA（微软亚洲研究院）图像分析、大数据挖掘研究组组长张磊发起，每年定期举办。参赛队伍被要求基于微软云服务，搭建包括人脸检测、对齐、识别的完整人脸识别系统，而且识别系统必须先通过远程实验评估.

reference paper：MS-Celeb-1M: A Dataset and Benchmark for Large-Scale Face Recognition published at ECCV 2016.

Training dataset, contains 10M images in version 1, is the largest publicly available one in the world
Task : 识别 1M 个明星 from their face images.

这篇文章提出要建立知识库。这是与传统不同的地方。

这里写图片描述

建立知识库有何好处？

首先，知识库上的每个人实体是unique，并且清楚地定义，而没有歧异，使得可以定义这样的大规模面部识别任务。第二，每个实体自然具有多个属性（例如性别，出生日期，职业），为数据收集，清洗和多任务学习提供丰富且有价值的信息。

数据集是什么样的？

从1M个名人中，根据他们的受欢迎程度，选择100K个。然后，利用搜索引擎，给100K个人，每人搜大概100张图片。共100K*100=10M个图片。注意，这是lady gaga的图片，我去，化妆太夸张了吧。估计连人都难认出来。
这里写图片描述
下面这个是jobs。从中学时代到近50岁的时候图片。年龄跨度很大。注意绿色框是中学时代的jobs。红色的框是人工合成的（job本人以及电影中的扮演者共同合成）。也就是一张false。但是假的逼真。