Hinton Neural Networks课程笔记2e:感知机的局限性

来源:互联网 发布:js方法的构造函数 编辑:程序博客网 时间:2024/04/29 21:26

感知机的局限性用一句话就是只能对线性可分的数据集收敛。基于感知机的局限性,体现出了特征提取的重要性,进而提出了使用隐层节点学习特征提取的重要性;然后稍微分析了一下学习特征提取的难度。


1. 前提条件:特征提取固定

首先明确感知机局限性的前提条件:特征提取固定。
如果特征提取的足够多,感知机可以对任意二值输入向量分类(任意有理数域信息都可以表示为二值向量,只需要特征提取为所有二值向量的表示(共2|x|个特征),感知机即可对任意二值向量进行分类;但这种方法的泛化能力明显不好)。

2. 一个简单的例子:XOR

XOR
上诉四个数据点是无法被感知机正确分类的,证明方法如下:

2.1. 数学公式法

xor1
从而有θ×2>w1+w2θθ2>θθ>0,而此结论与θ0相悖。

2.2. 几何展示法

xor2
回忆感知机的几何解释中使用的是权重空间,数据点对应于权重空间的一个超平面。
这里使用的是数据空间,每一维对应于一个数据点,权重对应于数据空间的一个向量,而与这个向量垂直的超平面将数据空间分为两个部分,一个部分会被给定权重判为正样本,而另一部分则被判为负样本。
如上图所示,无法找到一个超平面可以对四个数据点做合理的区分,所以感知机无解。

3. 另一个例子:模式识别

感知机的一个重要的被期待的应用方向就是模式识别。Minsky和Papert使用“Group Invariance Theorem”,证明了只要变化是可以循环的,同时两个模式的加和是相同的,那么感知机即无法对其进行区分。
如下是一个图像领域的例子,有n多个像素点,每个像素点只有0或1两种可能值。模式A是一个黑点+两个白点+两个黑点+两个白点+一个黑点;模式B是两个黑点+三个白点+两个黑点。注意同一个模式可以有多种可能位置,而且变换是可以循环的,即头尾相连。
patterns
那现在就是要证明两个模式是无法通过感知机区分的:使用反证法。
假设存在一个合法权重w和阈值θ可以区分两种模式,即对于所有属于模式A的数据xi,有wxiθ;而对于所有属于模式B的数据xj,有wxj<θ。那么有iAwxi=4w=jBwxj,从而有|B|×θ>|A|×θ|B|==|A|θ>θ。而θ=θ,所以假设不成立。
proof
但如果能够合理的设计特征(例如连在一起的黑块数目),则上诉问题可以被感知机正确分类。这里就体现出传统模式识别问题的难点不在于分类器的部分,而在于设计特征。

4. 自适应学习特征及其难点

上文已经论证了特征的重要性,但特征的设计细致且繁琐;为每一个子问题设计特定的特征往往耗时费力,效果也不好。如果能够学习特征的话,那么问题将会被大大简化。
学习特征有几个限制:首先,线性特征是没有意义的,因为线性变换没有改变空间结构,线性不可分的数据集仍然是线性不可分的;所以隐层节点输出的非线性函数是很有必要的。其次,固定输出也是没有意义的(就相当于一个bias),需要输出能够根据输入变化。使用带有隐层节点的神经网络,具有自适应学习非线性特征的能力。
但如何训练网络使其能够学习到合理的特征,是个具有难度的问题。因为其困难重重,使得神经网络在感知机之后又沉寂了十几年。首先,其需要训练整个网络的权重(而不是仅仅是最后一层);其次隐层输出是没有真值的,没有一个合理特征作为目标,使得神经网络可以学习。

阅读全文
0 0