Effective TensorFlow Chapter 5: 在TensorFlow中,给模型喂数据(feed data)
来源:互联网 发布:极简云盘源码 编辑:程序博客网 时间:2024/06/07 15:55
Effective TensorFlow Chapter 5: 在TensorFlow中,给模型喂数据(feed data)
本文翻译自: 《Feeding data to TensorFlow》, 如有侵权请联系删除,仅限于学术交流,请勿商用。如有谬误,请联系指出。
TensorFlow被设计可以在大规模的数据情况下高效地运行。所以你需要记住千万不要“饿着”你的TF模型,这样才能得到最好的表现。一般来说,一共有三种方法可以“喂养”(feed)你的模型。
常数方式(Constants)
最简单的方式莫过于直接将数据当成常数嵌入你的计算图中,如:
import tensorflow as tfimport numpy as npactual_data = np.random.normal(size=[100])data = tf.constant(actual_data)
这个方式非常地高效,但是却不灵活。这个方式存在一个大问题就是为了在其他数据集上复用你的模型,你必须要重写你的计算图,而且你必须同时加载所有数据,并且一直保存在内存里,这意味着这个方式仅仅适用于小数剧集的情况。
占位符方式(Placeholders)
可以通过占位符(placeholder)的方式解决刚才常数喂养网络的问题,如:
import tensorflow as tfimport numpy as npdata = tf.placeholder(tf.float32)prediction = tf.square(data) + 1actual_data = np.random.normal(size=[100])tf.Session().run(prediction, feed_dict={data: actual_data})
占位符操作符返回一个张量,他的值在会话(session)中通过人工指定的feed_dict
参数得到(fetch)。(译者:也就是说占位符其实只是占据了数据喂养的位置而已,而不是真正的数据,所以在训练过程中,如果真正需要使用这个数据,就必须要指定合法的feed_dict,否则将会报错。)
通过python的操作(python ops)
还可以通过利用python ops喂养数据:
def py_input_fn(): actual_data = np.random.normal(size=[100]) return actual_datadata = tf.py_func(py_input_fn, [], (tf.float32))
python ops允许你将一个常规的python函数转换成一个TF的操作。(译者:这种方法不常用。)
利用TF的自带数据集API(Dataset API)
最值得推荐的方式就是通过TF自带的数据集API进行喂养数据,如:
actual_data = np.random.normal(size=[100])dataset = tf.contrib.data.Dataset.from_tensor_slices(actual_data)data = dataset.make_one_shot_iterator().get_next()
如果你需要从文件中读入数据,你可能需要将文件转化为TFrecord
格式,这将会使得整个过程更加有效(译者:同时,可以利用TF中的队列机制和多线程机制,实现无阻塞的训练。)
dataset = tf.contrib.data.Dataset.TFRecordDataset(path_to_data)
查看官方文档,了解如何将你的数据集转化为TFrecord
格式。(译者:我即将推出关于TFrecord的博文,有需要的朋友敬请关注。)
dataset = ...dataset = dataset.cache()if mode == tf.estimator.ModeKeys.TRAIN: dataset = dataset.repeat() dataset = dataset.shuffle(batch_size * 5)dataset = dataset.map(parse, num_threads=8)dataset = dataset.batch(batch_size)
在读入了数据之后,我们使用Dataset.cache()
方法,将其缓存到内存中,以求更高的效率。在训练模式中,我们不断地重复数据集,这使得我们可以多次处理整个数据集。我们也需要打乱(shuffle)数据集得到batch,这个batch将会有不同的样本分布。下一步,我们使用Dataset.map()
方法,对原始的数据(raw records)进行预处理,将数据转换成一个模型可以识别,利用的格式。(译者:map参考MapDeduce和python自带的高阶函数map)然后,我们就通过Dataset.batch()
,创造样本的batch了。
- Effective TensorFlow Chapter 5: 在TensorFlow中,给模型喂数据(feed data)
- Effective TensorFlow Chapter 6: 在TensorFlow中的运算符重载
- Effective TensorFlow Chapter 9: TensorFlow模型原型的设计和利用python ops的高级可视化
- Effective TensorFlow Chapter 8: 在TensorFlow中的控制流:条件语句和循环
- Effective TensorFlow Chapter 4: TensorFlow中的广播Broadcast机制
- tensorflow之feed用法
- tensorflow喂数据进模型小例子
- Tensorflow 训练模型数据freeze固话保存在Graph中
- Effective TensorFlow Chapter 7: TensorFlow中的执行顺序和控制依赖
- tensorflow 中导出/恢复模型Graph数据Saver
- tensorflow2caffe(2) : 如何在tensorflow中取出模型参数
- retrain tensorflow中InceptionV3模型
- Tensorflow中的fetch与feed
- Tensorflow关于feed的问题
- tensorflow实现LeNet-5模型
- TensorFlow实战:Chapter-1(TensorFlow介绍)
- TensorFlow实战:Chapter-2(TensorFlow入门)
- Tensorflow中如何加载数据
- Kafka_流
- 微程序控制器之微命令编码
- loadClass,findClass,defineClass
- Tensorflow Fine-Tuning 的一些说明
- RKE快速上手指南:开源的轻量级K8S安装程序
- Effective TensorFlow Chapter 5: 在TensorFlow中,给模型喂数据(feed data)
- myeclipse jsp页面一半彩色一半黑色
- CSS定位
- linux环境下$PATH设置方法
- Java中DecimalFormat 用法
- CSS的visibility和overflow属性
- Git 入门--基本配置(一)
- JavaScript HTML DOM 元素之 添加和删除节点(HTML 元素)
- 高等数学基础