多层感知机：Multi-Layer Perceptron

来源：互联网发布：linux新增硬盘分区命令编辑：程序博客网时间：2024/05/27 09:45

多层感知机：MLP

多层感知机由感知机推广而来，最主要的特点是有多个神经元层，因此也叫深度神经网络(DNN: Deep Neural Networks)。

感知机：PLA

多层感知机是由感知机推广而来，感知机学习算法(PLA: Perceptron Learning Algorithm)用神经元的结构进行描述的话就是一个单独的。

感知机的神经网络表示如下：

u = \sum i = 1 n w i x i + b y = s i g n (u) = {+ 1, u > 0 - 1, u \leq 0

从上述内容更可以看出，PLA是一个线性的二分类器，但不能对非线性的数据并不能进行有效的分类。因此便有了对网络层次的加深，理论上，多层网络可以模拟任何复杂的函数。

多层感知机：MLP

多层感知机的一个重要特点就是多层，我们将第一层称之为输入层，最后一层称之有输出层，中间的层称之为隐层。MLP并没有规定隐层的数量，因此可以根据各自的需求选择合适的隐层层数。且对于输出层神经元的个数也没有限制。
MLP神经网络结构模型如下,本文中只涉及了一个隐层，输入只有三个变量[x1,x2,x3]和一个偏置量b，输出层有三个神经元。相比于感知机算法中的神经元模型对其进行了集成。

前向传播

前向传播指的是信息从第一层逐渐地向高层进行传递的过程。以下图为例来进行前向传播的过程的分析。
假设第一层为输入层，输入的信息为[x1,x2,x3]。对于层l，用Ll表示该层的所有神经元，其输出为yl,其中第j个节点的输出为y(j)l,该节点的输入为u(j)l，连接第l层与第(l−1)层的权重矩阵为Wl，上一层（第l−1层）的第i个节点到第l层第j个节点的权重为w(ji)l。

结合之前定义的字母标记，对于第二层的三个神经元的输出则有：

y (1) 2 = f (u (1) 2) = f (\sum i = 1 n w 1 i 2 x i + b (1) 2) = f (w (11) 2 x 1 + w (12) 2 x 2 + w (13) 2 x 3 + b (1) 2) y (2) 2 = f (u (2) 2) = f (\sum i = 1 n w 2 i 2 x i + b (2) 2) = f (w (21) 2 x 1 + w (22) 2 x 2 + w (23) 2 x 3 + b (2) 2) y (3) 2 = f (u (3) 2) = f (\sum i = 1 n w 3 i 2 x i + b (3) 2) = f (w (31) 2 x 1 + w (32) 2 x 2 + w (33) 2 x 3 + b (3) 2)

将上述的式子转换为矩阵表达式：

y 2 = ⎡ ⎣ ⎢ ⎢ ⎢ y (1) 2 y (2) 2 y (3) 2 ⎤ ⎦ ⎥ ⎥ ⎥ = f ⎛ ⎝ ⎜ ⎜ ⎜ ⎡ ⎣ ⎢ ⎢ w 112 w 212 w 312 w 122 w 222 w 322 w 132 w 232 w 332 ⎤ ⎦ ⎥ ⎥ ⎡ ⎣ ⎢ x 1 x 2 x 3 ⎤ ⎦ ⎥ + ⎡ ⎣ ⎢ ⎢ ⎢ b (1) 2 b (2) 2 b (3) 2 ⎤ ⎦ ⎥ ⎥ ⎥ ⎞ ⎠ ⎟ ⎟ ⎟ = f (W 2 X + b 2)

将第二层的前向传播计算过程推广到网络中的任意一层，则:

⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ y (j) l = f (u (j) l) u (j) l = \sum i \in L l - 1 w (j i) l y (i) l - 1 + b (j) l y l = f (u l) = f (W l y l - 1 + b l)

其中

f(⋅)为激活函数，

b(j)l为第

l层第

j个节点的偏置。

反向传播

基本的模型搭建完成后的，训练的时候所做的就是完成模型参数的更新。由于存在多层的网络结构，因此无法直接对中间的隐层利用损失来进行参数更新，但可以利用损失从顶层到底层的反向传播来进行参数的估计。（约定：小写字母—标量，加粗小写字母—向量，大写字母—矩阵）

假设多层感知机用于分类，在输出层有多个神经元，每个神经元对应一个标签。输入样本为x=[x1,x2,⋯,xn],其标签为t;
对于层l，用Ll表示该层的所有神经元，其输出为yl,其中第j个节点的输出为y(j)l,该节点的输入为u(j)l，连接第l层与第(l−1)层的权重矩阵为Wl，上一层（第l−1层）的第i个节点到第l层第j个节点的权重为w(ji)l。

对于网络的最后一层第k层——输出层，现在定义损失函数：

E = 1 2 \sum j \in L k (t (j) - y (j) k) 2

为了极小化损失函数，通过梯度下降来进行推导：

⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ \partial E \partial w ( j i ) l \partial E \partial b ( j ) l = \partial E \partial y ( j ) l \partial y ( j ) l \partial w ( j i ) l = \partial E \partial y ( j ) l \partial y ( j ) l \partial u ( j ) l \partial u ( j ) l \partial w ( j i ) l = \partial E \partial y ( j ) l \partial y ( j ) l \partial b ( j ) l = \partial E \partial y ( j ) l \partial y ( j ) l \partial u ( j ) l \partial u ( j ) l \partial b ( j ) l

在上式子中，根据之前的定义，很容易得到：

⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ \partial y ( j ) l \partial u ( j ) l \partial u ( j ) l \partial w ( j i ) l \partial u ( j ) l \partial b ( j ) l = f' (u (j) l) = y (i) l - 1 = 1

那么则有：

⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ \partial E \partial w ( j i ) l \partial E \partial b ( j ) l = \partial E \partial y ( j ) l \partial y ( j ) l \partial u ( j ) l \partial u ( j ) l \partial w ( j i ) l = \partial E \partial y ( j ) l f' (u (j) l) y (i) l - 1 = \partial E \partial y ( j ) l \partial y ( j ) l \partial u ( j ) l \partial u ( j ) l \partial b ( j ) l = \partial E \partial y ( j ) l f' (u (j) l)

另有，下一层所有结点的输入都与前一层的每个结点输出有关，因此损失函数可以认为是下一层的每个神经元结点输入的函数。那么：

\partial E \partial y ( j ) l = \partial E ( u ( 1 ) l + 1 , u ( 2 ) l + 1 , . . . , u ( k ) l + 1 , . . . , u ( K ) l + 1 ) \partial y ( j ) l = \sum k \in L l + 1 \partial E \partial u ( k ) l + 1 \partial u ( k ) l + 1 \partial y ( j ) l = \sum k \in L l + 1 \partial E \partial y ( k ) l + 1 \partial y ( k ) l + 1 \partial u ( k ) l + 1 \partial u ( k ) l + 1 \partial y ( j ) l = \sum k \in L l + 1 \partial E \partial y ( k ) l + 1 \partial y ( k ) l + 1 \partial u ( k ) l + 1 w (k j) l + 1

此处定义节点的灵敏度为误差对输入的变化率，即：

δ = \partial E \partial u

那么第

l层第

j个节点的灵敏度为：

δ (j) l = \partial E \partial u ( j ) l = \partial E \partial y ( j ) l \partial y ( j ) l \partial u ( j ) l = \partial E \partial y ( j ) l f' (u (j) l)

结合灵敏度的定义，则有：

\partial E \partial y ( j ) l = \sum k \in L l + 1 \partial E \partial y ( k ) l + 1 \partial y ( k ) l + 1 \partial u ( k ) l + 1 w (k j) l + 1 = \sum k \in L l + 1 δ k l + 1 w (k j) l + 1

上式两边同时乘上

f′(u(j)l)，则有

δ (j) l = \partial E \partial y ( j ) l f' (u (j) l) = f' (u (j) l) \sum k \in L l + 1 δ k l + 1 w (k j) l + 1

注意到上式中表达的是前后两层的灵敏度关系，而对于最后一层，也就是输出层来说，并不存在后续的一层，因此并不满足上式。但输出层的输出是直接和误差联系的，因此可以用损失函数的定义来直接求取偏导数。那么：

δ (j) l = \partial E \partial y ( j ) l f' (u (j) l) = ⎧ ⎩ ⎨ ⎪ ⎪ f' (u (j) l) \sum k \in L l + 1 δ k l + 1 w (k j) l + 1 l 层 为 隐 层 f' (u (j) l) (y (j) l - t (j)) l 层 为 输 出 层

至此，损失函数对各参数的梯度为：

⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ \partial E \partial w ( j i ) l \partial E \partial b ( j ) l = \partial E \partial u ( j ) l \partial u ( j ) l \partial w ( j i ) l = δ (j) l y (i) l - 1 = \partial E \partial u ( j ) l \partial u ( j ) l \partial b ( j ) l = δ (j) l

上述的推到都是建立在单个节点的基础上，对于各层所有节点，采用矩阵的方式表示，则上述公式可以写成：

\partial E \partial W l \partial E \partial b l δ l = δ l y T l - 1 = δ l = {(W T l + 1 δ l + 1) \circ f' (u l), l 层 为 隐 层 (y l - t) \circ f' (u l), l 层 为 输 出 层

其中运算符

∘表示矩阵或者向量中的对应元素相乘。
常见的几个激活函数的导数为：

f' (u l) f' (u l) f' (u l) = s i g m o i d' (u l) = s i g m o i d (u l) (1 - s i g m o i d (u l)) = y l (1 - y l) = t a n h' (u l) = 1 - t a n h 2 (u l) = 1 - y 2 l = s o f t m a x' (u l) = s o f t m a x (u l) - s o f t m a x 2 (u l) = y l - y 2 l

根据上述公式，可以得到各层参数的更新公式为：

W l b l : = W l - η \partial E \partial W l = W l - η δ l y T l - 1 : = b l - η \partial E \partial b = b l - η δ l

References:

阅读全文

0 0