开源数据集

来源:互联网 发布:5g网络哪些手机支持 编辑:程序博客网 时间:2024/05/16 09:36

一个经典的机器学习的处理框架下,用作训练集使用,而可将标准的测试图像作为测试集使用。

  • /pub/machine-learning-databases 的索引

1. 图像

  • 标准测试图像: Lena、Barbara、Boat、Pepper、Cameraman …
  • CVG - UGR - Image database
  • The Berkeley Segmentation Dataset and Benchmark
    • images
    • human segmentations
  • CIFAR-10
    The CIFAR-10 dataset consists of 60000 32x32 colour images in 10 classes, with 6000 images per class. There are 50000 training images and 10000 test images.
    10 labels:airplane,automobile,bird,cat,deer,dog,frog,horse,ship,truck
  • Classification datasets results:各种算法模型在各种分类任务上的实验结果
    • MNIST
    • CIFAR-10、CIFAR-100
    • STL-10、SVHN
    • ILSVRC2012 task 1
  • mnist(手写字符识别)
    mnist database
    matlab 解析 mnist 数据集

2. 各大数据集的读写方式

  • minst

    with gzip.open('./mnist.pkl.gz', 'rb') as f:    trainset, validset, testset = cPickle.load(f)# 如果需要用到符号式编程(比如 theano),对这些数据做进一步的封装调整def shared_data(data, borrow=True):    data_x, data_y = data    shared_x = theano.shared(np.asarray(data_x, dtype=theano.config.floatX), borrow=borrow)    shared_y = theano.shared(np.asarray(data_y, dtype=theano.config.floatY), borrow=borrow)    return shared_x, shared_ytrainset_x, trainset_y = shared_data(trainset)...
1 1
原创粉丝点击