对于caffe的数据集的说明

来源:互联网 发布:抱枕淘宝店推荐 编辑:程序博客网 时间:2024/05/17 03:00

(1):数据

数据获取:

1.   Benchmark是一个行业的基准(数据库,论文,源码,结果)。例如上网上可以搜索face detection benchmark,会出现一些满意的数据集

2.   优秀论文,通常实验阶段都会介绍它所使用的数据集,公开数据集可以下载。申请数据集的时候,最好使用学校的邮箱。

3.   论坛或者交流社区,比如thinkface

4.   数据的规模 越大越好 今天的数据量4W多

二分类数据,第一类人脸,第二类非人脸

人脸数据:路径/xxx.jpg  60,80,280,320

非人脸数据:只要不是人脸都是可以的

 

对于正样本:裁剪的操作,根据标注的坐标把人脸裁剪出来。可以opencv这个工具,来完成制作人脸数据。要检查一下,看一看数据有没有问题。

对于负样本:

进行一个随机的裁剪,IOU这个比例(重叠的比例)在原始的数据当中,IOU<0.3认为是一个负样本,最好是拿没有人脸数据的当作负样本。

 

制作LMDB数据源(其实它就是caffe支持的非常常用的分类的数据源)

写两个txt文档文件

Train.txt

0/xxx.jpg 0

1/xxx.jpg 1

Val.txt

xxx.jpg 0

xxx.jpg 1

 

制作LMDB数据源,用caffe提供的脚本文件

前几行改成自己的安装目录

要进行一个resize操作,比如ALEXNET或者VGG通常都是给它resize 227*227.

Sh LMDB脚本文件。文件是很大的