神经网络总结

来源：互联网发布：创维网络机顶盒e900 编辑：程序博客网时间：2024/06/06 20:29

图中，左边几个灰底圆中所标字母w代表浮点数，称为权重（weight，或权值，权数）。进入人工神经细胞的每一个input(输入)都与一个权重w相联系，正是这些权重将决定神经网络的整体活跃性。你现在暂时可以设想所有这些权重都被设置到了-１和１之间的一个随机小数。因为权重可正可负，故能对与它关联的输入施加不同的影响，如果权重为正，就会有激发（excitory）作用，权重为负，则会有抑制（inhibitory）作用。当输入信号进入神经细胞时，它们的值将与它们对应的权重相乘，作为图中大圆的输入。大圆的‘核’是一个函数，叫激励函数(activation function)，它把所有这些新的、经过权重调整后的输入全部加起来，形成单个的激励值(activation value)。激励值也是一浮点数，且同样可正可负。然后，再根据激励值来产生函数的输出也即神经细胞的输出：如果激励值超过某个阀值（作为例子我们假设阀值为1.0），就会产生一个值为1的信号输出；如果激励值小于阀值1.0，则输出一个0。这是人工神经细胞激励函数的一种最简单的类型。在这里，从激励值产生输出值是一个阶跃函数[译注2]。看一看图3后你就能猜到为什么有这样的名称。

为了创建一个人工神经网络，人工神经细胞也要以同样方式相互连接在一起。为此可以有许多不同的连接方式，其中最容易理解并且也是最广泛地使用的，就是如图5所示那样，把神经细胞一层一层地连结在一起。这一种类型的神经网络就叫前馈网络（feedforword network）。这一名称的由来，就是因为网络的每一层神经细胞的输出都向前馈送（feed）到了它们的下一层（在图中是画在它的上面的那一层)，直到获得整个网络的输出为止。

由图可知，网络共有三层（译注：输入层不是神经细胞，神经细胞只有两层）。输入层中的每个输入都馈送到了隐藏层，作为该层每一个神经细胞的输入；然后，从隐藏层的每个神经细胞的输出都连到了它下一层（即输出层）的每一个神经细胞。图中仅仅画了一个隐藏层，作为前馈网络，一般地可以有任意多个隐藏层。但在对付你将处理的大多数问题时一层通常是足够的。事实上，有一些问题甚至根本不需要任何隐藏单元，你只要把那些输入直接连结到输出神经细胞就行了。另外，我为图5选择的神经细胞的个数也是完全任意的。每一层实际都可以有任何数目的神经细胞，这完全取决于要解决的问题的复杂性。但神经细胞数目愈多，网络的工作速度也就愈低，由于这一缘故，以及为了其他的几种原因（我将在第9章作出解释），网络的规模总是要求保持尽可能的小。

这里多出了一个权重！不错，我很高兴看到你能注意到这一点，因为这一个附加的权重十分重要。但要解释它为什么在那里，我必须更多地介绍一些数学知识。回忆一下你就能记得，激励值是所有输入*权重的乘积的总和，而神经细胞的输出值取决于这个激励值是否超过某个阀值(t)。这可以用如下的方程来表示:

w₁x₁ + w₂x₂ + w₃x₃ +...+ w_nx_n >= t

　　上式是使细胞输出为１的条件。因为网络的所有权重需要不断演化（进化），如果阀值的数据也能一起演化，那将是非常重要的。要实现这一点不难，你使用一个简单的诡计就可以让阀值变成权重的形式。从上面的方程两边各减去t，得:

w₁x₁ + w₂x₂ + w₃x₃ +...+ w_nx_n –t >= 0

这个方程可以再换用一种形式写出来，如下:

w₁x₁ + w₂x₂ + w₃x₃ +...+ w_nx_n+ t *(–1) >= 0

　　到此，我希望你已能看出，阀值t为什么可以想像成为始终乘以输入为 -１的权重了。这个特殊的权重通常叫偏移（bias），这就是为什么每个神经细胞初始化时都要增加一个权重的理由。现在，当你演化一个网络时，你就不必再考虑阀值问题，因为它已被内建在权重向量中了。怎么样，想法不错吧？为了让你心中绝对敲定你所学到的新的人工神经细胞是什么样子，请再参看一下图12。

神经网络训练问题的探讨

四、深入讨论

收敛性与局部最小值

正如前面所说的反向传播算法实现了一种对可能的网络权值空间的梯度下降搜索，它不断迭代从而减小训练样例目标值与网络输出之间的误差。但因为多层网络，误差曲面可能含有多个不同的局部极小值，我们的梯度下降可以收敛在这些极小值中。因此，对于多层网络，反向传播算法仅能保证收敛到误差E的某个局部极小值，不一定收敛到全局最小误差。

尽管缺乏对收敛到全局最小误差的保证，反向传播算法在实践中仍是非常有效的函数逼近算法。对很多实际中的应用，人们发现局部最小值的问题没有想像的那么严重。因为局部极小值往往是对于某个权值而言，些时其他权值未必也是极小值。事实上网络的权越多，误差曲面维数越多，也就越可能为梯度下降提供更多的“逃逸路线”让梯度下降离开相对该单个权值的局部极小值。

另外一个观点是，我们开始给权值初始化的值都非常小，接近于0，在这样小权值的情况下，sigoid函数可以近似的看为线性的，所以在权值变化的初期是不存在局部极小值问题的，而到了后期整个网络到了高度非线性的时候，可能这里的极小值点已经很接近全局最小值了。

多层网络的处理能力

很多人都会在这里发出疑问，什么类型的函数可以使用多层网络来表示呢？或者说什么样的分类问题可以用多层网络来表示呢？答案是：任意函数。任意函数可以被一个有三层单元的网络以任意精度逼近(Cybenko 1988)。但是值得注意的是，我们使用的梯度下降算法并没有搜索整个权值空间，所以我们很可能会漏掉那个最合适的权值集合。

归纳偏置

什么是归纳偏置？举个例子，假如我们有两个样本$x_1=[1,0,0,0]$和$x_2=[0.8,0,0,0]$并且我们认为它们属于同一类别，即如果把它们作为神经网络的输入，我们希望它们得到同样的输出。训练样本中只有这两个实例，但是如果我们需要得到$x_3=[0.9,0,0,0]$的输出时，它的结果会和$x_1$,$x_2$的输出一样。神经网络的这种能力，我们称它为归纳偏置的能力，实际网络是在数据点之间平滑插值。

过度拟合

因为我们收集到的样本中有些样本可能由于我们分类错误等原因，造成了一个错误的样本用例，实际上神经网络对这种带有噪点的样本的适应性很强。但是在上面我们介绍的原理中，我们并没有规定权值迭代更新的终止条件，往往我们是设置了一个迭代次数来控制，也就有可能造成，在训练的后期那些权值是过度拟合那些噪点样本。这个问题没有统一的解决方案，现在比较常用的方法就是通过交叉验证，即在训练的同时，用一组校验校本进行测试，找出分类率回降的一个点，从而终于训练过程。

0 0