courseras NN_for_ml系列(lecture 2 )

来源:互联网 发布:淘宝旺铺装修 编辑:程序博客网 时间:2024/06/05 03:54

  • 神经网络构架主要的综述
  • 感知器的几何描述 之 向量空间
  • 为什么感知器有效
  • 感知器不能做的事

神经网络构架主要的综述

这一节将会讲解3中神经网络模型。分别为前馈神经网络(Feed-forward neural networks ),循环神经网络(Recurrent networks),对称连接网络(symmetrically-connected network)

前馈神经网络是在应用中最普遍的神经网络模型。
形状为:这里写图片描述
最底层是输入层,最上层是输出层。中间有一个或者更多个层的隐藏单元。
循环神经网络比前馈神经网络更加厉害。
形状为:这里写图片描述
循环是一个有向圆。也就是你从一个节点出发,沿着一个箭头的方向,是可以再次回到这个节点的。但是循环神经网络很难训练。

感知器的几何描述 之 向量空间

这里训练案例training case是一个向量,而不是一群向量的集合。

我们可以把训练案例转换成平面 然后尝试学习得到所有训练平面右侧的权值向量

在权重空间里,每一个点表示一个权重向量。每一条直线由一个输入训练点表示。在权重向量中,也就是一个训练点(x)可以确定一条直线,这条直线有无穷多个点组合,即这条直线有无穷多个权重向量(即权重向量的集合)组合,其中这些权重向量与这个训练点的点积恒为零。
这里写图片描述

我们先不考虑阈值b。假设每一个数据点是n维的 x=(x1,x2,...,xn),那么权值也是n维的w=(w1,w2,...,wi,...,xn)
这里我们讨论的是权值空间。那么这个权值空间就是n维的。其中每一个点表示的是一个权重向量w=(w1,w2,...,wi,...,xn)。对于任意一个训练案例都可以表示成一个直线(注意:这里是一个训练案例,而不是一个训练集)。这条直线由无穷多个点(即 权重向量)组成,每一个权值向量w=(w1,w2,...,wi,...,xn)与这一个案例x=(x1,x2,...,xn)的点积为0。那么这条直线与这一个案例一一对应(注意:直线是由无穷多个与这一个案例点积为0的权值向量组成)。与此同时,也只有这条直线上面的点所代表的权值向量与这一个案例的点积为0,其他所有的权值向量与这个案例的点积要么大于0,要么小于0。后来我们发现,这个由无穷多个 与这个案例点积为0的权值向量 组成的 直线 可以把 正确的权重向量 和错误的权值向量 分隔开来。

将权值空间 与 以前的训练数据空间 进行对比:
这里写图片描述

这里写图片描述

在权值空间中,一条边是一群与某一个训练案例 的点积为 0 的 权值向量组成。且这条边可以将权值空间所有的权值向量分成2等份。线的一边全部都是好的权值向量,另一边全部都是坏的权值向量。

假设,现在这一个训练案例的label为1。
我们知道,边上面的w与这个训练案例的点积为0。那么要想正确的将训练案例区分正确,就必须wx>0,即w与x的夹角必须小于0。如果大于0,就会分错。

这里写图片描述

同理,如果这一个训练案例的label为0。则w与x的夹角必须大于0
这里写图片描述

当我们有两个点时,也就形成了两条边。那么全部正确区分的权值空间应该是下面绿色部分。

这里写图片描述

为什么感知器有效

假设一定存在一个向量来正确的划分所有的训练点。现在我们证明感知器一定能够找到这个向量。

从一个向量出发,如果使得某一训练点区分错误的话,就不断更新自己,使自己不断接近于所有的可行权重向量。

感知器不能做的事

感知器的限制你使用的特征。特征选择的好,那么感知器可以做任何事;特征选择的不好,那么所有的学习都将会受到限制
一旦一个特征被决定,那么这个感知器能够学到的东西就受到了极大的限制。
还有就是,因为什么原因使得需要的特征呈指数上升,这内容没听懂
这里写图片描述
我们可以用代数说明感知器解决不了这种问题其中θ表示阈值
这里写图片描述
如果用几何的方法解释,很显然,这是无法线性可分的。
这里写图片描述

wrap-around
下面一部分没听懂,摘抄自博客http://blog.csdn.net/ycheng_sjtu/article/details/47724949
这里写图片描述

0 0
原创粉丝点击