Python
来源:互联网 发布:淘宝店铺怎么做广告 编辑:程序博客网 时间:2024/06/15 02:29
Python 创建LMDB/HDF5格式数据
LMDB格式的优点:
- 基于文件映射IO(memory-mapped),数据速率更好
- 对大规模数据集更有效.
HDF5的特点:
- 易于读取
- 类似于mat数据,但数据压缩性能更强
- 需要全部读进内存里,故HDF5文件大小不能超过内存,可以分成多个HDF5文件,将HDF5子文件路径写入txt中.
- I/O速率不如LMDB.
LMDB创建
import numpy as npimport lmdbimport caffelmdb_file = '/path/to/data_lmdb'N = 1000 # 准备 data 和 labelsX = np.zeros((N, 3, 224, 224), dtype=np.uint8) # datay = np.zeros(N, dtype=np.int64) # labelsenv = lmdb.open(lmdb_file, map_size=int(1e12))txn = env.begin(write=True)for i in range(N): datum = caffe.proto.caffe_pb2.Datum() datum.channels = X.shape[1] datum.height = X.shape[2] datum.width = X.shape[3] datum.data = X[i].tobytes() # or .tostring() if numpy < 1.9 datum.label = int(y[i]) # 以上五行也可以直接: datum = caffe.io.array_to_datum(data, label) str_id = '{:08}'.format(i) txn.put(str_id, datum.SerializeToString()) # in Python3 # txn.put(str_id.encode('ascii'), datum.SerializeToString())
LMDB读取
import numpy as npimport lmdbimport caffeenv = lmdb.open('data_lmdb', readonly=True)txn = env.begin()cursor = txn.cursor()datum = caffe.proto.caffe_pb2.Datum()for key, value in lmdb_cursor: print '{},{}'.format(key, label) datum.ParseFromString(value) flat_data = np.fromstring(datum.data, dtype=np.uint8) data = flat_data.reshape(datum.channels, datum.height, datum.width) # 或 data = caffe.io.datum_to_array(datum) labels = datum.label
HDF5创建和读取
import h5py import numpy as np # 创建HDF5文件 imgsData = np.zeros((10,3,224,224)) # Imageslabels = range(10) # Labelsf = h5py.File('HDF5_FILE.h5','w') # 创建一个h5文件 f['data'] = imgsData # 写入Images数据 f['labels'] = labels # 写入Labels数据 f.close() # # 读取HDF5文件 f = h5py.File('HDF5_FILE.h5','r') # 打开h5文件 f_keys = f.keys() imgsData = f['data'][:] labels = f['labels'][:] f.close()
阅读全文
0 0
- Python
- Python
- Python
- python
- Python
- PYTHON
- Python
- Python
- Python
- Python
- Python
- Python
- Python
- Python
- Python
- Python
- python
- Python
- 进程与线程,形象的图片解释
- Android测试-- Uiautomatorviewer
- jsonp跨域
- Spring中使用拦截器配置HttpOnly,来提升WEB应用程序的安全性
- HDMI协议
- Python
- SQL优化
- python关于PIL安装
- RenderTexture截屏原理
- 安装MySQL之后,在cmd中MySQL命令不能识别
- echarts-简单使用
- Instrumentation 实践详解
- 面向对象之共享单车项目
- 枚举类