Deep Learning常用的一些数据集简介

来源:互联网 发布:mysql自带可视化界面 编辑:程序博客网 时间:2024/04/23 15:25

1.前言

单纯觉得有一个数据集整合之后的分享会帮助到有需要的人,我也在一点点整理当中,把接触到的数据集都整理在这篇文章中,希望以后做训练时可以更加方便。

2.数据集

MNIST数据集

MNIST(Mixed National Institute of Standards and Technology database),是一个非常简单的机器学习视觉数据集,由几万张28像素x28像素的手写数字组成,只包含图片的灰度值信息,用于图像分类。
数据集信息:
训练集:55000
测试集:10000
验证集:5000
下载原网址:http://yann.lecun.com/exdb/mnist
数据集的下载与读取:
import tensorflow as tf   from tensorflow.examples.tutorials.mnist import input_data    mnist = input_data.read_data_sets("MNIST_data/",one_hot = True) 

CIFAR-10数据集

CIFAR-10数据集包含60000张32x32的彩色图像,其中训练集50000张,测试集10000张,CIFAR-10数据集如同它的名字,一共标注为10类,每一类图片6000张。这10类分别为:airplane、automobile、bird、cat、deer、dog、frog、horse、ship和truck,其中没有重复。
数据集下载:
git clone https://github.com/tensorflow/models.gitcd models/tutorials/image/cifar10
数据集读取:
import cifar10,cifar10_input

ImageNet数据集

ImageNet项目由斯坦福大学终身教授李飞飞创办,目标是收集大量带有标注信息的图片数据供计算机视觉模型训练。ImageNet拥有1500万张标注过的高清图片,总共拥有22000类,其中拥有100万张标注了图片中主要物体的定位边框。


原创粉丝点击