MacroSoft数据集MS-Celeb-1M
来源:互联网 发布:ubuntu安装深度商店 编辑:程序博客网 时间:2024/05/16 18:18
这两天要训练人脸。那么数据集首选MS-Celeb-1M.
人脸数据集:CAISA-WebFace,VGG-Face, MS-Celeb-1M, MegaFace.
介绍一下MS-Celeb-1M数据集:
MSR IRC是目前世界上规模最大、水平最高的图像识别赛事之一,由MSRA(微软亚洲研究院)图像分析、大数据挖掘研究组组长张磊发起,每年定期举办。参赛队伍被要求基于微软云服务,搭建包括人脸检测、对齐、识别的完整人脸识别系统,而且识别系统必须先通过远程实验评估.
reference paper:MS-Celeb-1M: A Dataset and Benchmark for Large-Scale Face Recognition published at ECCV 2016.
Training dataset, contains 10M images in version 1, is the largest publicly available one in the world
Task : 识别 1M 个明星 from their face images.
这篇文章提出要建立知识库。这是与传统不同的地方。
建立知识库有何好处?
首先,知识库上的每个人实体是unique,并且清楚地定义,而没有歧异,使得可以定义这样的大规模面部识别任务。 第二,每个实体自然具有多个属性(例如性别,出生日期,职业),为数据收集,清洗和多任务学习提供丰富且有价值的信息。
数据集是什么样的?
从1M个名人中,根据他们的受欢迎程度,选择100K个。然后,利用搜索引擎,给100K个人,每人搜大概100张图片。共100K*100=10M个图片。注意,这是lady gaga的图片,我去,化妆太夸张了吧。估计连人都难认出来。
下面这个是jobs。从中学时代到近50岁的时候图片。年龄跨度很大。注意绿色框是中学时代的jobs。红色的框是人工合成的(job本人以及电影中的扮演者共同合成)。也就是一张false。但是假的逼真。
测试集是如何制定的?
测试集包括1000个名人,这1000个名人来自于1M个明星中随机挑选。而且经过微软标注。每个名人大概有20张图片,这些图片都是网上找不到的。因此,你不可能专门训练这1000个人,之后对于测试结果非常好。
如何评估谁的识别系统好?
输入一张人脸,然后输出最多5个置信度,按百分比排名,排名最好的额,定位结果。
假设:输入为:
然后你的输出【89.3%,8.4%,1.1%,0.8%,0.4%】对应【李小龙,王浩,马龙,张继科,刘国梁】。
那么认为你的top1是评价的结果。本来的标注是李小龙。那么你的预测是正确的。
【附】:一份干净的,列表(训练集)。MS-Celeb-1M_clean_list.txt
http://pan.baidu.com/s/1hrD9MgW
================================Q&A=================================
1、如何将MsCelebV1-Faces-Aligned.tsv 转成jpg。
google:How to extract the images and associating class labels from clickture_dog_thumb.tsv file?
2、转换完效果是什么?
注意:可以看到数据有噪声。如果想得到比较好的效果,请用上面干净的列表。
- MacroSoft数据集MS-Celeb-1M
- MacroSoft数据集MS-Celeb-1M
- 人脸识别数据集之MS-Celeb-1M
- python解析 MS-Celeb-1M 数据库
- python解析 MS-Celeb-1M 数据库
- Python3解析MS-Celeb-1M人脸数据集中的FaceImageCroppedWithAlignment.tsv文件
- 微软人脸数据库ms-celeb-1m清洗方案
- 微软人脸数据库ms-celeb-1m清洗Python Coding #1
- Moxielens 1M数据集
- MS coco数据集下载
- 用pandas处理MovieLens 1m 数据集
- 时间单位m和ms弄错导致系统概率异常, 耗费1天多才解决问题!
- 【leetcode】394. Decode String【M】【45ms】
- 【转】计算器的MC、MR、MS、M+、M-如何使用
- MS SQL数据操作
- YouTube-8M 数据集简介
- 利用Python进行数据分析---ch02《MovieLens 1M数据集(上)》读书笔记
- 利用Python进行数据分析---ch02《MovieLens 1M数据集(下)》读书笔记
- 去掉一个最高分,去掉一个最低分以后评委的平均打分。
- jmeter实现根据http请求参数是否有值,选择性的添加参数
- android studio创建签名文件
- File System 文件系统模块
- 通讯协议
- MacroSoft数据集MS-Celeb-1M
- 真正从零开始,TensorFlow详细安装入门图文教程!
- iOS巅峰之编译时出现的错误(总结)
- 拆分一个单元表为多个单元簿
- 1.MATLAB界面编程 .m文件生成.exe文件相关问题及解答
- java使用unicode过滤emoji表情
- Android系统中Parcelable和Serializable的区别
- 第十二周-OJ-E输出交换后的两个值
- 润乾在hibernate中配置报表数据源