神经网络

来源：互联网发布：pscc2018软件下载编辑：程序博客网时间：2024/05/21 10:04

概述

以监督学习为例，假设我们有训练样本集(xi,yi),那么神经网络算法能够提供一种复杂且非线性的假设模型hW,b(x), 它具有参数W,b, 可以以此参数来拟合我们的数据。
为了描述神经网络（neural networks），我们先从最简单的神经网络讲起，这个神经网络仅由一个“神经元”构成，以下就是这个“神经元”的图示：

这个“神经元”是一个以

x1,x2,x3及截距+1为输入值的运算单元，其输出为

hW,b(x)=f(WTx+b)=f(∑3i=1Wixi+bi), 其中函数f被称为“激活函数”。在本教程中，我们选用sigmoid函数作为激活函数

f(.)

f (z) = 1 1 + e x p ( - z )

可以看出，这个单一“神经元”的输入输出映射关系其实就是一个逻辑回归（logistic regression）。
虽然本系列教程采用sigmoid函数，但你也可以选择双曲正切函数（tanh）：

f (z) = t a n h (z) = ( e z - e - z ) ( e z + e - z )

以下分别是sigmoid及tanh的函数图像

tanh(z)函数是sigmoid函数的一种变体，它的取值范围是[-1,1],而不是sigmoid函数的[0,1]。

注意，我们用单独的参数b来表示截距。
最后要说明的是，有一个灯饰我们以后会经常用到：如果选择f(z)=11+exp(−z)也就是sigmoid函数，那么它的导数就是

$f' (z) = f (z) (1 - f (z))$ (如果选择tanh函数，那它的导数就是
$f' (z) = 1 - (f (z)) 2 ）$ , 你可以根据sigmoid（或tanh）函数的定义自行推导这个等式。

神经网络模型

所谓神经网络就是将许多个单一“神经元”联结在一起，这样，一个“神经元”的输出就可以是另一个“神经元”的输入。例如，下图就是一个简单的神经网络：

我们使用圆圈来表示神经网络的输入，标上“+1”的圆圈被称为偏值节点，也就是截距项。神经网络最左边的一层叫做输入层，最右边的一层叫做输出层，本例中输出层只有一个节点。中间所有节点组成的一层叫做隐藏层（hidden layer），因为我们不能在训练样本集中观测到它们的值。同时可以看到，以上神经网络的例子中有3个输入单元（偏值单元不计在内），3个隐藏单元及一个输出单元。

下面将列出诸多的公式，这对于表达神经网络至关重要。如有可能深刻理解和尽可能的记住，对理解问题大有裨益。

我们用nl来表示网络的层次，本例中nl=3, 我们将第l层记为Ll，于是L1是输入层，输出层是Lnl。本例神经网络有参数

(W, b) = (W (1), b (1), W (2), b (2))

其中

W(l)ij代表第

l层第j单元与第l+1层第i单元之间的联接参数，其实就是连接线上的权重。只是要注意第一个标号是下一层，后面我们会发现这样定义有一定的好处。

b(l)i是第l+1层第i单元的偏值项。因此在本例中

W (1) \in R 3 \times 3, W (2) \in R 1 \times 3

注意，没有其他单元连向偏值单元，因为他们总是输出+1。同时，我们用

sl表示第

l层的节点数，偏值单元不计在内。
我们用

a(l)i表示第l层第i单元的激活值。当

l=1时，

a(l)i=xi，也就是第i个输入值。对于给定参数集合

W,b，我们的神经网络就可以按照函数

hW,b(x)来计算输出结果。本例神经网络的计算步骤如下：

a (2) 1 = f (W (1) 11 x 1 + f (W (1) 12 x 2 + f (W (1) 13 x 3 + b (1) 1)

a (2) 2 = f (W (1) 21 x 1 + f (W (1) 22 x 2 + f (W (1) 23 x 3 + b (1) 2)

a (2) 3 = f (W (1) 31 x 1 + f (W (1) 32 x 2 + f (W (1) 33 x 3 + b (1) 3)

h W, b (x) = a (3) 1 = f (W (2) 11 a (2) 1 + W (2) 12 a (2) 2 + W (2) 13 a (2) 3 + b (2) 1)

我们用z(l)i表示第l层第i单元输入加权和（包括偏置单元），比如，z(2)i=∑nj=1W(1)ijxj+b(1)i，则a(l)i=f(z(l)i)。
这样我们就可以得到一种更简洁的表示法。这里我们将激活函数f(.)扩展为用向量来表示，即f([z1,z2,z3])=[f(z1),f(z2),f(z3)]，那么，上面的等式可以更简洁的表示为：

z (2) = W (1) x + b (1)

a (2) = f (z (2))

z (3 = W (2) a (2) + b (2)

h W, b (x) = a (3) 1 = f (z (3))

我们将上面的计算步骤叫做前向传播（forward propagation）。回想一下，之前我们用

a(1)=x表示输入层的激活值，那么给定第l层的激活值

a(l)后，第l+1层的激活值

a(l+1)就可以按照下面步骤计算得到：

z (l + 1 = W (l) a (l) + b (l)

a (l + 1 = f (z (l + 1)

将参数矩阵化，使用矩阵-向量运算方式，我们就可以利用线性代数的优势对神经网络进行快速求解。
目前为止，我们讨论了一种神经网络，我们也可以构建另一种结构的神经网络（这里结构指的是神经元之间的联接模式），也就是包含多个隐藏层的神经网络。最常见的一个例子是

nl层的神经网络，第 1 层是输入层，第

nl层是输出层，中间的每个层

l与层

l+1紧密相联。这种模式下，要计算神经网络的输出结果，我们可以按照之前描述的等式，按部就班，进行前向传播，逐一计算第

L2层的所有激活值，然后是第

L3层的激活值，以此类推，直到第

Lnl层。这是一个前馈神经网络的例子，因为这种联接图没有闭环或回路。
神经网络也可以有多个输出单元。比如，下面的神经网络有两层隐藏层：

L2 及

L3，输出层

L4有两个输出单元。

要求解这样的神经经网络，需要样本集

(x(i),y(i))，其中

y(i)∈R2 。如果你想预测的输出是多个的，那这种神经网络很适用。（比如，在医疗诊断应用中，患者的体征指标就可以作为向量的输入值，而不同的输出值

yi可以表示不同的疾病存在与否。）

中英文对照

neural networks 神经网络
activation function 激活函数
hyperbolic tangent 双曲正切函数
bias units 偏置项
activation 激活值
forward propagation 前向传播
feedforward neural network 前馈神经网络(参照Mitchell的《机器学习》的翻译)

参考文献

http://deeplearning.stanford.edu/wiki/index.php/%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C

阅读全文

0 0