紧跟未来深度学习框架需求，TensorFlow 推出 Eager Execution

来源：互联网发布：淘宝搜索引擎简称编辑：程序博客网时间：2024/06/05 22:30

Google 的 TensorFlow 是 AI 学习者中使用率最高、名气也最大的深度学习框架，但由于 TensorFlow 最早是基于 Google 的需求开发的，在实际使用上也会存在如 文档乱、调试难 等诸多缺点，而且开发时间比较早未能及时对一些新的需求进行反应（据AI研习社了解，由于缺乏类似 PyTroch、DyNet 的动态图功能，Lecun 就不止一次吐槽过 TensorFlow 是 “过时的深度学习框架”（yesterday deep learning framework）），而针对用户的需求，Google 也在对 TensorFlow 不断改进。

在 10 月 31 日，Google 为 TensorFlow 引入了动态图机制 Eager Execution，而 Google Brain Team 的工程师 Asim Shankar 和 Wolff Dobson 也在 Google 官方博客发文详细阐述了这一功能带来的变化，AI研习社摘编如下：

今天，我们为 TensorFlow 引入了 “Eager Execution”，它是一个命令式、由运行定义的接口，一旦从 Python 被调用可立即执行操作，这使得 TensorFlow 的入门学习变的更简单，也使得研发工作变得更直观。
Eager Execution 的优点包括：
可以在即时的运行错误下进行快速调试，与 Python 工具进行整合
通过易于使用的 Python 控制流支持动态模型
为自定义和高阶梯度提供强大支持
适用于几乎目前所有的 TensorFlow 操作
目前 Eager Execution 仍处于试用阶段，因此我们也在寻求来自社区的反馈以指导我们的方向。

同时 Google 还举了一些使用 Eager Execution 的直观例子，例如使用两个矩阵相乘的代码是这样编写的：

import tensorflow as tf
import tensorflow.contrib.eager as tfe
tfe.enable_eager_execution()
x = [[2.]]
m = tf.matmul(x, x)

使用 print 或者 Python 调试器检查中间结果也非常直接。

print(m)
# The 1x1 matrix [[4.]]

梯度与自定义梯度

大多数 TensorFlow 用户对自动微分感兴趣。因为每次调用期间可能会产生不同的运算，因此我们将所有的正向运算录到一个 “磁带” 上，并在计算梯度时进行反向运算。计算了梯度之后，这个 “磁带” 就没用了。

这一 API 与 autograd 包非常类似，例子如下：

def square(x):
return tf.multiply(x, x)
grad = tfe.gradients_function(square)
print(square(3.)) # [9.]
print(grad(3.)) # [6.]

在这里，gradients_function 先调用了一个预先定义的 Python 函数 square() 作为参数，并返回一个 Python 可调用函数 grad 来计算相对于输入的 square() 的偏导数。如以上例子中当输入为 3.0 时， square() 的计算结果为 9，而 grad(3.0) 为对 square() 进行偏导，其计算结果为 6。

同样，我们也可以调用 gradient_function 计算 square 的二阶导数。

此外，用户也可能需要为运算或函数自定义梯度。这一功能可能有用，例如，它可以为一系列运算提供了更高效或者数值更稳定的梯度。

以下是一个自定义梯度的例子。我们先来看函数 log(1 + e^x)，它通常用于计算交叉熵和对数似然。

def log1pexp(x):
return tf.log(1 + tf.exp(x))
grad_log1pexp = tfe.gradients_function(log1pexp)
# The gradient computation works fine at x = 0.
print(grad_log1pexp(0.)
)# [0.5]
# However it returns a `nan` at x = 100 due to numerical instability.print(grad_log1pexp(100.))
# [nan]

上述例子中，当 x=0 时，梯度计算表现良好。然而由于数值的不稳定性，当 x=100 时则会返回 `nan` 。使用上述函数的自定义梯度可用于分析简化梯度表达式。

使用 Eager 和 Graphs

Eager execution 使开发和调试互动性更强，但是 TensorFlow graphs 在分布式训练、性能优化和生产部署中也有着诸多优势。

当启用 eager execution 时，执行运算的代码同时还可以构建一个描述 eager execution 未启用状况的计算图。要将模型转换成图形，只需在新的 Python 进程中运行同样的代码即可。这一做法可以从检查点保存和修复模型变量值，这允许我们在 eager（命令式）和 graph（声明式）编程之间轻松转换。通过这种方式可以轻松地将启用 eager execution 开发出的模型导出到生产部署中。

在不久的将来，我们将提供工具来选择性地将模型的某些部分转换为图形。这样就可以融合部分计算（如自定义 RNN 单元的内部），以实现高性能并同时保持 eager execution 的灵活性和可读性。

新功能势必带来代码编写上的变化。Google 还很贴心地给出了几个 Tips：

与 TensorFlow 一样，我们建议，如果您还没有从队列切换到使用 tf.data 进行输入处理，请抓紧时间进行切换，它更容易使用，也会更快。有关帮助参阅相关博客文章（http://t.cn/RpNiMIo）和文档页面（http://t.cn/Rl2azT8）。
使用面向对象层，如 tf.layer.Conv2D（）或 Keras 层;；它们可以直接存储变量。
你可以为大多数模型编写代码，无论是执行和图形构建都是一样的。但也有一些例外，例如使用 Python 控制流来改变基于输入的计算的动态模型。
一旦你调用了 tfe.enable_eager_execution（），它就不能关闭。要获取图形行为，请启动一个新的 Python 会话。

更多内容可参阅 Google 博客（http://t.cn/RlZizQ2）。

新人福利

关注 AI 研习社（okweiwu），回复 1 领取

【超过 1000G 神经网络 / AI / 大数据，教程，论文】

文档乱、调试难… TensorFlow 有那么多缺点，但为何我们依然待它如初恋？

▼▼▼

阅读全文

0 0