TensorFlow学习--多层感知机

来源:互联网 发布:淘宝柒牌官方店 编辑:程序博客网 时间:2024/06/07 00:22

多层感知机

在神经网络上加上隐含层并使用Dropout减轻过拟合,使用Adagrad自适应学习速率,使用ReLU解决梯度消失/弥散问题.

ReLU对比Sigmoid的主要变化点:

  1. 单侧抑制
  2. 相对宽阔的兴奋边界
  3. 稀疏激活性

采用ReLU解决梯度弥散问题参见深度学习--采用ReLU解决消失的梯度问题(vanishing gradient problem)

单侧抑制:

从函数图像上可以看到ReLU把负值都变为0,正值不变,这种操作即是单侧抑制.
这里写图片描述

稀疏激活性:

sigmodi函数的导数图像:
这里写图片描述

ReLU函数的导数图像:

这里写图片描述
可以看到ReLU函数在负半轴导数为0,所以神经元激活值为负数时则梯度就会为0,则该神经元不会被训练即稀疏激活性

多层感知机tensorflow实现

代码及注释:

# #!/usr/bin/python# # coding:utf-8# 多层感知机from tensorflow.examples.tutorials.mnist import input_dataimport tensorflow as tf# 加载MNIST数据集mnist = input_data.read_data_sets("Mnist_data", one_hot=True)sess = tf.InteractiveSession()# 输入节点数in_units = 784# 隐藏层输出节点数h1_units = 300# 隐藏层权重及偏执,用正太分布为参数增加一点噪声避免完全对称和0梯度W1 = tf.Variable(tf.truncated_normal([in_units, h1_units], stddev=0.1))b1 = tf.Variable(tf.zeros([h1_units]))# 输出层的权重及偏执W2 = tf.Variable(tf.zeros([h1_units, 10]))b2 = tf.Variable(tf.zeros([10]))# 定义输入x的占位符x = tf.placeholder(tf.float32, [None, in_units])# 定义Dropout的比率(训练时小于1,预测时等于1)keep_prob = tf.placeholder(tf.float32)# 定义一个隐含层,y=relu(Wx+b)hidden1 = tf.nn.relu(tf.matmul(x, W1) + b1)# 实现Dropouthidden1_drop = tf.nn.dropout(hidden1, keep_prob)# 输出层输出的实际值y = tf.nn.softmax(tf.matmul(hidden1_drop, W2) + b2)# 目标值y_ = tf.placeholder(tf.float32, [None, 10])# 损失函数使用交叉信息熵cross_entropy = tf.reduce_mean(-tf.reduce_sum(y_*tf.log(y), reduction_indices=[1]))# 使用Adagrad优化器,学习率设为0.3,优化损失函数train_step = tf.train.AdagradOptimizer(0.3).minimize(cross_entropy)tf.global_variables_initializer().run()# 采用4000个batchfor i in range(4000):    # 每个batch中包含100个样本    batch_xs, batch_ys = mnist.train.next_batch(100)    # Dropout的比率设为0.75    train_step.run({x: batch_xs, y_: batch_ys, keep_prob: 0.75})# 对模型进行准确率评测correct_prediction = tf.equal(tf.argmax(y, 1), tf.argmax(y_, 1))# 将布尔值投射为tf.float32类型,计算均值accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))# Dropout的比率设为1print accuracy.eval({x: mnist.test.images, y_: mnist.test.labels, keep_prob: 1.0})

输出:

0.9811