神经网络学习笔记（三）

来源：互联网发布：list找出重复数据编辑：程序博客网时间：2024/06/07 13:56

在上一篇文章中提到了神经网络的结构，但是究竟选择怎么样的神经网络，怎么去架构神经网络，这就要涉及到本节所要讨论的问题：信息的表达。如何将获得的信息在神经网络中表达，并最终表达出想要的信息。就如同我们看到一件衣服，这件衣服在视网膜上呈现的信息怎么在大脑的神经网络中表达出来这就是一件衣服呢。

信息表达：

神经网络体系中，可将信息分为两大类，第一类是我们预先知道的信息，统计学中的概念叫做先验知识。第二类是通过一些感知器感知到的信息（比如看到的，听到的信息）。一般来说，这些感知到的信息构成了神经网络的输入输出，也同时构成了每一个实例。

这些实例可以是有标签的或者是没有标签的，神经网络系统需要一组有标签的实例构成的集合来做训练样本。比如手写数字识别问题，图像的各个点的像素值构成了神经网络的输入，而数字所属的类别构成了输出。对应于这个问题的神经网络构架的输入层就有与图像像素点个数相同的节点数作为输入，并且输出节点为10对应数字的类别总数。其次我们对神经网络的训练需要一组标明类别的图像集合作为训练样本。同样还需要一组未曾使用过的有标签的实例来检验系统的识别率以及泛化能力。

信息在神经网络中的合理表达是架构设计合理的重要依据，除了上述输入输出信息的对应，以及特定样本的选取外。信息的表达还有四个重要的准则：

（1）相似的输入来自相同的类别应该在神经网络系统中有相似的表达，并且最终被分入同一个类别。

（2）不同的类的输入应该在神经网络中表达出很大的不同。

其实第二个准则是第一个准则的对偶准则。最大的类间距等价于最小的类内距：这是大津法，SVM的基础。

（3）如果该问题有一个特征是非常重要的，那应该该架构中有很多的神经元有这个特征的表达有关。

（4）先验知识以及不变量在需要的时候应该设计到网络中，可以简化神经网络

第四个准则是非常重要的，因为正是由于这个准则产生了特殊的网络结构。由于以下原因这个准则也是非常需要的

1、生物视觉以及听觉的网络是非常专业特殊的

2、特殊结构的神经网络一般会有更少的自由参数需要训练

3、信息转化的速率更高

4、特殊的神经网络的开销更小

如何将先验知识引入到神经网络中

并没有统一的规则如何把先验知识引入到神经网络架构中去，但却有一些成功的案例，比如LeCun最先构架的卷积神经网络（CNN）。简单来说，CNN主要用了两种技术手段：1、通过感受域的概念限制神经网络的结构；2、通过权重共享限制权重的选择。通过这两种技术手段自由参数的数量被大幅度缩减，并且在识别结果上也有了提升。具体架构如下图所示

如上图所示，前六个节点x1到x6构成了第一个隐藏层第一个节点的感受域，以此类推其他节点的感受域。从架构的角度来看神经元与神经元直接的连接少了，部分简化了神经网络。为了满足权重共享的限制，第一个隐藏层的每一个节点将使用同样的权重参数

$v_{j}=\sum_{i=1}^{6}w_{i}x_{i+j-1}$

$j=1,2,3,4$

输入层与第一层隐藏层虽然有24个连接，但是只有6个权重参数，大大简化了神经网络。上述公式为卷积和的一个形式，所以这样的神经网络叫做卷积神经网络。

如何引入不变量到神经网络的构架中：

（1）通过结构引入不变量

举个例子，同一幅图片可能会有不同的旋转变换，构造的神经网络希望可以有这样的特性，不同旋转变换的输入会在神经元作用后有同样的输出。那么可以通过网络的结构来加强旋转不变形：在像素i与k与中心像素的距离相同的情况下wji=wjk，这样就满足了旋转不变性的要求。然而为了保持旋转不变性，当像素与中心点距离一样的时候，这些点的权重被一遍一遍的重复。

（2）通过训练引入不变量

针对上述旋转不变性的问题，还可以使用训练同一个样本不同的旋转情况来满足；但是也会有一些问题，有些情况的样本旋转经过训练可以识别，但是有些情况没有经过训练，就有可能无法识别，不同样本的旋转情况也有可能无法识别。

（3）不变的特征空间

这种方法很容易理解，就是先通过一些可以表征不变性特点的特征提取算子来提取特征，随后再用这些特征构成输入进行神经网络的构架。

0 0