Hinton Neural Networks课程笔记2e：感知机的局限性

来源：互联网发布：js方法的构造函数编辑：程序博客网时间：2024/04/29 21:26

感知机的局限性用一句话就是只能对线性可分的数据集收敛。基于感知机的局限性，体现出了特征提取的重要性，进而提出了使用隐层节点学习特征提取的重要性；然后稍微分析了一下学习特征提取的难度。

1. 前提条件：特征提取固定

首先明确感知机局限性的前提条件：特征提取固定。
如果特征提取的足够多，感知机可以对任意二值输入向量分类（任意有理数域信息都可以表示为二值向量，只需要特征提取为所有二值向量的表示（共2|x|个特征），感知机即可对任意二值向量进行分类；但这种方法的泛化能力明显不好）。

2. 一个简单的例子：XOR

XOR
上诉四个数据点是无法被感知机正确分类的，证明方法如下：

2.1. 数学公式法

xor1
从而有θ×2>w1+w2≥θ⇒θ∗2>θ⇒θ>0，而此结论与θ≤0相悖。

2.2. 几何展示法

xor2
回忆感知机的几何解释中使用的是权重空间，数据点对应于权重空间的一个超平面。
这里使用的是数据空间，每一维对应于一个数据点，权重对应于数据空间的一个向量，而与这个向量垂直的超平面将数据空间分为两个部分，一个部分会被给定权重判为正样本，而另一部分则被判为负样本。
如上图所示，无法找到一个超平面可以对四个数据点做合理的区分，所以感知机无解。

3. 另一个例子：模式识别

感知机的一个重要的被期待的应用方向就是模式识别。Minsky和Papert使用“Group Invariance Theorem”，证明了只要变化是可以循环的，同时两个模式的加和是相同的，那么感知机即无法对其进行区分。
如下是一个图像领域的例子，有n多个像素点，每个像素点只有0或1两种可能值。模式A是一个黑点+两个白点+两个黑点+两个白点+一个黑点；模式B是两个黑点+三个白点+两个黑点。注意同一个模式可以有多种可能位置，而且变换是可以循环的，即头尾相连。
patterns
那现在就是要证明两个模式是无法通过感知机区分的：使用反证法。
假设存在一个合法权重w和阈值θ可以区分两种模式，即对于所有属于模式A的数据xi，有w∗xi≥θ；而对于所有属于模式B的数据xj，有w∗xj<θ。那么有∑i∈Aw∗xi=4∑w=∑j∈Bw∗xj，从而有|B|×θ>|A|×θ∧|B|==|A|⇒θ>θ。而θ=θ，所以假设不成立。
proof
但如果能够合理的设计特征（例如连在一起的黑块数目），则上诉问题可以被感知机正确分类。这里就体现出传统模式识别问题的难点不在于分类器的部分，而在于设计特征。

4. 自适应学习特征及其难点

上文已经论证了特征的重要性，但特征的设计细致且繁琐；为每一个子问题设计特定的特征往往耗时费力，效果也不好。如果能够学习特征的话，那么问题将会被大大简化。
学习特征有几个限制：首先，线性特征是没有意义的，因为线性变换没有改变空间结构，线性不可分的数据集仍然是线性不可分的；所以隐层节点输出的非线性函数是很有必要的。其次，固定输出也是没有意义的（就相当于一个bias），需要输出能够根据输入变化。使用带有隐层节点的神经网络，具有自适应学习非线性特征的能力。
但如何训练网络使其能够学习到合理的特征，是个具有难度的问题。因为其困难重重，使得神经网络在感知机之后又沉寂了十几年。首先，其需要训练整个网络的权重（而不是仅仅是最后一层）；其次隐层输出是没有真值的，没有一个合理特征作为目标，使得神经网络可以学习。

阅读全文

0 0