为什么梯度下降法对于非线性可分数据有效

来源：互联网发布：mac virtualbox u盘编辑：程序博客网时间：2024/06/08 05:59

前言

晚上逛微博看到的，顺便拿过来翻译一下，做做笔记

国际惯例，来个原文链接：

原文地址：Why is gradient descent robust to non-linearly separable data?

PDF拷贝：http://download.csdn.net/detail/zb1165048017/9678128

译文

声明：梯度下降法本身对于非线性可分数据是不具健壮性的。但是使用了合适的非线性激活函数以后便可以了。

原因在于核函数的技巧。在核函数方法中，我们对数据做一个非线性变换，因为结果数据是线性可分的。如图所示，对于蓝色和红色点的分类任务，它们不是线性可分的。但是如果我们使用第三个变量(z=x²+y²)以后会如何呢？我们可以在蓝色和红色点之间画一个平面，分离这两类点。这恰恰就是神经网络做的事情。

神经网络学习可以被看成两部分的处理，它们学习的是数据的一种非线性变换，以及基于这种变换的数据分类。考虑只有一层的神经网络，网络输出(忽略偏置项)是Y=Wφ(Vx)，其中φ是非线性函数。目前神经网络所需做的事情就是将非线性变换通过φ(Vx)施加于x，然后再转换过的数据上执行现行分类任务。因此通过梯度下降算法学习是两个部分的过程。第一部分，学习最优化核或者函数(通过V)；第二部分使用线性方法分类变换过的数据。这在Andrej Karpathy的主页中也阐释过。这里有一个链接可视化一个模型，去观察神经网络是如何应用核方法以及实施随后的分类任务，点这里就是链接。

下图展示了网站中神经网络应用核方法其中的一张：

0 0