tensorflow之深入MNIST专家

来源：互联网发布：网络有什么好项目投资编辑：程序博客网时间：2024/04/29 11:01

TensorFlow是进行大规模数值计算的强大库。其优点之一是实施和训练深层神经网络。在本教程中，我们将在构造一个深卷积MNIST分类器的同时学习TensorFlow模型的基本构建模块。

这个介绍假设熟悉神经网络和MNIST数据集。如果你没有他们的背景，请查看初学者的介绍。启动之前，请务必安装TensorFlow。

关于本教程

本教程的第一部分解释了mnist_softmax.py 代码中发生了什么，这是Tensorflow模型的基本实现。第二部分显示了一些提高精度的方法。

您可以将本教程中的每个代码段复制并粘贴到Python环境中，或者从mnist_deep.py下载完全实施的深层网络。

我们将在本教程中完成什么：

创建一个softmax回归函数，该函数是用于识别MNIST数字的模型，基于查看图像中的每个像素
使用Tensorflow来训练模型来识别数字，方法是将其“查看”成千上万个示例（并运行我们的第一个Tensorflow会话）
使用我们的测试数据检查型号的精度
构建，训练和测试多层卷积神经网络以改善结果

建立

在创建我们的模型之前，我们将首先加载MNIST数据集，并启动TensorFlow会话。

加载MNIST数据

如果您在本教程的代码中复制和粘贴，请从这两个代码开始，这两行代码将自动下载和读取数据：


from tensorflow.examples.tutorials.mnist import input_data
mnist = input_data.read_data_sets('MNIST_data', one_hot=True)

这mnist是一个轻量级的类，它将训练，验证和测试集存储为NumPy数组。它还提供了一个迭代数据服务的功能，我们将在下面使用。

启动TensorFlow InteractiveSession

TensorFlow依靠高效的C ++后端来进行计算。与此后端的连接称为会话。TensorFlow程序的常见用法是首先创建一个图形，然后在会话中启动它。

这里我们使用方便的InteractiveSession类，这使得TensorFlow更加灵活地构建您的代码。它允许您将运行图形的运算图与运算图进行交织。在像IPython这样的交互式环境中工作时，这是非常方便的。如果您没有使用InteractiveSession，则应在开始会话并启动图之前构建整个计算图。


import tensorflow as tf
sess = tf.InteractiveSession()

计算图

为了在Python中进行有效的数值计算，我们通常使用像 NumPy这样的数据库，它们可以使用高效的代码来实现另一种语言，而使用昂贵的操作，比如Python之外的矩阵乘法。不幸的是，每次操作都需要重新切换到Python的开销很大。如果要在GPU上运行计算或以分布式方式运行计算，那么这种开销尤其糟糕，传输数据的成本很高。

TensorFlow也在Python之外做了很大的工作，但它需要进一步的工作来避免这种开销。TensorFlow不是独立于Python运行单独的昂贵操作，而是可以描述完全在Python之外运行的交互操作的图形。这种方法类似于Theano或Torch所使用的方法。

因此，Python代码的作用是构建这个外部计算图，并指定计算图应该运行的部分。有关更多详细信息，请参阅“ 开始使用TensorFlow”的“ 计算图” 部分。

建立一个Softmax回归模型

在本节中，我们将使用单个线性层构建一个softmax回归模型。在下一节中，我们将使用多层卷积网络将其扩展到softmax回归的情况。

占位符

我们通过为输入图像和目标输出类创建节点来开始构建计算图。


x = tf.placeholder(tf.float32, shape=[None, 784])
y_ = tf.placeholder(tf.float32, shape=[None, 10])

这里x并y_没有特定的值。相反，它们都是placeholder 我们要求TensorFlow运行计算时输入的值。

输入图像x将由2d张数的浮点数组成。在这里，我们分配给它一个shape的[None, 784]，在那里784是单个的维数由28像素MNIST图像扁平28，以及None指示所述第一尺寸，对应于批量大小，可以是任何大小的。目标输出类别y_也将由二维张量组成，其中每一行都是一个热热的10维向量，指示对应的MNIST图像属于哪个数字类（零到九个）。

该shape参数placeholder是可选的，但它允许TensorFlow自动捉虫子从张量不一致而产生的形状。

变量

我们现在定义我们的模型的权重W和偏差b。我们可以想象治疗这些像额外的输入，但TensorFlow有一个更好的方法来处理它们：Variable。A Variable是居住在TensorFlow计算图中的值。它可以被计算使用甚至修改。在机器学习应用中，通常有一个模型参数为 Variables。


W = tf.Variable(tf.zeros([784,10]))
b = tf.Variable(tf.zeros([10]))

我们在调用中传递每个参数的初始值tf.Variable。在这种情况下，我们初始化两者W并且b作为充满零的张量。W是一个784x10矩阵（因为我们有784个输入特征和10个输出），b是一个10维向量（因为我们有10个类）。

在Variable会话中可以使用s 之前，必须使用该会话初始化它们。此步骤将已经指定的初始值（在这种情况下为零），并将其分配给每个 Variable。这可以Variables一次完成：


sess.run(tf.global_variables_initializer())

预测类和损失函数

我们现在可以实现我们的回归模型。它只需要一行！我们将矢量化输入图像乘以x权重矩阵W，添加偏差b。


y = tf.matmul(x,W) + b

我们可以很容易地指定一个损失函数。损失表明模型在一个例子上的预测有多糟糕; 我们尽量减少所有这些例子的培训。在这里，我们的损失函数是应用于模型预测的目标和softmax激活函数之间的交叉熵。在初学者教程中，我们使用了稳定的公式：


cross_entropy = tf.reduce_mean(
    tf.nn.softmax_cross_entropy_with_logits(labels=y_, logits=y))

请注意，tf.nn.softmax_cross_entropy_with_logits内部将softmax应用于模型的非规范化模型预测和所有类别的总和，并tf.reduce_mean取平均值超过这些总和。

训练模型

现在我们已经定义了我们的模型和训练损失函数，直接使用TensorFlow进行训练。因为TensorFlow知道整个计算图，它可以使用自动差分来找出相对于每个变量的损失的梯度。TensorFlow具有多种内置优化算法。对于这个例子，我们将使用最大梯度下降，步长为0.5来降低交叉熵。


train_step = tf.train.GradientDescentOptimizer(0.5).minimize(cross_entropy)

TensorFlow在这一行中实际做的是向计算图添加新的操作。这些操作包括计算梯度，计算参数更新步骤，以及对参数应用更新步骤。

返回的操作运行train_step时，将梯度下降更新应用于参数。因此，训练模型可以通过反复运行来实现train_step。


for _ in range(1000):
  batch = mnist.train.next_batch(100)
  train_step.run(feed_dict={x: batch[0], y_: batch[1]})

我们在每个训练迭代中加载100个训练样例。然后我们运行该 train_step操作，feed_dict用于替换placeholder张量 x和y_训练示例。请注意，您可以使用计算图中的任何张量替换feed_dict- 它不仅限于 placeholders。

评估模型

我们的模型做得如何？

首先我们将弄清楚我们预测的正确标签。tf.argmax是一个非常有用的功能，它给出沿某个轴的张量中最高条目的索引。例如，tf.argmax(y,1)我们的模型认为是每个输入最有可能的标签，tf.argmax(y_,1)而是真正的标签。我们可以tf.equal用来检查我们的预测是否符合真相。


correct_prediction = tf.equal(tf.argmax(y,1), tf.argmax(y_,1))

这给了我们一个布尔的列表。为了确定哪个部分是正确的，我们转换为浮点数，然后取平均值。例如， [True, False, True, True]会变成[1,0,1,1]哪一个0.75。


accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))

最后，我们可以评估我们对测试数据的准确性。这应该是大约92％正确。


print(accuracy.eval(feed_dict={x: mnist.test.images, y_: mnist.test.labels}))

构建多层卷积网络

在MNIST上获得92％的准确性是不好的。几乎是尴尬的坏在本节中，我们将修复这个问题，从一个非常简单的模型跳到中等程度：一个小的卷积神经网络。这将使我们达到约99.2％的准确度 - 不是最先进的技术，而是值得尊敬。

重量初始化

要创建这个模型，我们将需要创建很多权重和偏差。通常应该用少量的噪声来初始化重量以进行对称断裂，并且防止0梯度。由于我们使用 ReLU神经元，所以初始化它们也是一个很好的初始偏倚，以避免“死神经元”。而不是在构建模型时反复执行，我们创建两个方便的功能来为我们做。


def weight_variable(shape):
  initial = tf.truncated_normal(shape, stddev=0.1)
  return tf.Variable(initial)

def bias_variable(shape):
  initial = tf.constant(0.1, shape=shape)
  return tf.Variable(initial)

卷积和集合

TensorFlow还为卷积和集合操作提供了很大的灵活性。我们如何处理边界？我们的步幅是多少？在这个例子中，我们总是选择香草版本。我们的卷积使用一个步长，零填充，使输出与输入的大小相同。我们的游泳池是超过2个2个街区的普通老人群。为了使代码更清洁，我们还将这些操作抽象为函数。


def conv2d(x, W):
  return tf.nn.conv2d(x, W, strides=[1, 1, 1, 1], padding='SAME')

def max_pool_2x2(x):
  return tf.nn.max_pool(x, ksize=[1, 2, 2, 1],
                        strides=[1, 2, 2, 1], padding='SAME')

第一卷积层

我们现在可以实现我们的第一层。它将由卷积组成，其次是最大合并。卷积将为每个5x5补丁计算32个功能。它的重量张量将具有一个形状[5, 5, 1, 32]。前两个维度是补丁大小，下一个是输入通道的数量，最后一个是输出通道的数量。我们还将拥有一个带有每个输出通道分量的偏置矢量。


W_conv1 = weight_variable([5, 5, 1, 32])
b_conv1 = bias_variable([32])

为了应用层，我们首先重新x形成4d张量，第二和第三维对应于图像的宽度和高度，最后的尺寸对应于颜色通道的数量。


x_image = tf.reshape(x, [-1, 28, 28, 1])

然后我们x_image与权重张量进行卷积，添加偏差，应用ReLU函数，最后再加入最大值。该max_pool_2x2方法将图像大小减小到14x14。


h_conv1 = tf.nn.relu(conv2d(x_image, W_conv1) + b_conv1)
h_pool1 = max_pool_2x2(h_conv1)

第二卷积层

为了构建一个深层次的网络，我们堆叠这种类型的几层。第二层将为每个5x5补丁提供64个功能。


W_conv2 = weight_variable([5, 5, 32, 64])
b_conv2 = bias_variable([64])

h_conv2 = tf.nn.relu(conv2d(h_pool1, W_conv2) + b_conv2)
h_pool2 = max_pool_2x2(h_conv2)

密集层

现在图像尺寸已经缩小到7x7，我们添加了一个具有1024个神经元的完全连接的图层，以便对整个图像进行处理。我们从汇集层将张量重塑成一批向量，乘以权重矩阵，添加偏倚并应用ReLU。


W_fc1 = weight_variable([7 * 7 * 64, 1024])
b_fc1 = bias_variable([1024])

h_pool2_flat = tf.reshape(h_pool2, [-1, 7*7*64])
h_fc1 = tf.nn.relu(tf.matmul(h_pool2_flat, W_fc1) + b_fc1)

退出

为了减少过度拟合，我们将在读出层之前应用压差。我们创建一个placeholder神经元在输出期间输出的概率。这样可以让我们在训练过程中辍学，并在测试过程中将其关闭。TensorFlow的tf.nn.dropoutop自动处理缩放神经元输出，除了掩盖它们，所以退出只是工作没有任何额外的缩放。¹


keep_prob = tf.placeholder(tf.float32)
h_fc1_drop = tf.nn.dropout(h_fc1, keep_prob)

读出层

最后，我们添加一层，就像上一层softmax回归一样。


W_fc2 = weight_variable([1024, 10])
b_fc2 = bias_variable([10])

y_conv = tf.matmul(h_fc1_drop, W_fc2) + b_fc2

培训和评估模型

这个模型有多好？为了训练和评估它，我们将使用与上面简单的一层SoftMax网络几乎相同的代码。

差异在于：

我们将用更复杂的ADAM优化器替换最陡峭的梯度下降优化器。
我们将包括额外的参数keep_prob中feed_dict，控制辍学率。
我们将在培训过程中每隔100次添加日志记录。

我们也将使用tf.Session而不是tf.InteractiveSession。这更好地分离了创建图形（模型分离）的过程和评估图形（模型拟合）的过程。它通常使清洁代码。tf.Session在一个with块内创建，以便在块被退出后自动销毁。

随意运行这段代码。请注意，它会执行20,000次训练迭代，并且可能需要一段时间（可能长达半小时），具体取决于您的处理器。


cross_entropy = tf.reduce_mean(
    tf.nn.softmax_cross_entropy_with_logits(labels=y_, logits=y_conv))
train_step = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy)
correct_prediction = tf.equal(tf.argmax(y_conv, 1), tf.argmax(y_, 1))
accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))

with tf.Session() as sess:
  sess.run(tf.global_variables_initializer())
  for i in range(20000):
    batch = mnist.train.next_batch(50)
    if i % 100 == 0:
      train_accuracy = accuracy.eval(feed_dict={
          x: batch[0], y_: batch[1], keep_prob: 1.0})
      print('step %d, training accuracy %g' % (i, train_accuracy))
    train_step.run(feed_dict={x: batch[0], y_: batch[1], keep_prob: 0.5})

  print('test accuracy %g' % accuracy.eval(feed_dict={
      x: mnist.test.images, y_: mnist.test.labels, keep_prob: 1.0}))

运行此代码后的最终测试集精度应为大约99.2％。

我们已经学会了如何使用TensorFlow快速，轻松地构建，训练和评估一个相当复杂的深度学习模型。

1：对于这个小型卷积网络，性能实际上几乎是一样的，没有退出。辍学通常在减少过拟合方面非常有效，但是在训练非常大的神经网络时最有用。

阅读全文

0 0