为什么梯度下降法对于非线性可分数据有效
来源:互联网 发布:mac virtualbox u盘 编辑:程序博客网 时间:2024/06/08 05:59
前言
晚上逛微博看到的,顺便拿过来翻译一下,做做笔记
国际惯例,来个原文链接:
原文地址:Why is gradient descent robust to non-linearly separable data?
PDF拷贝:http://download.csdn.net/detail/zb1165048017/9678128
译文
声明:梯度下降法本身对于非线性可分数据是不具健壮性的。但是使用了合适的非线性激活函数以后便可以了。
原因在于核函数的技巧。在核函数方法中,我们对数据做一个非线性变换,因为结果数据是线性可分的。如图所示,对于蓝色和红色点的分类任务,它们不是线性可分的。但是如果我们使用第三个变量(z=x²+y²)以后会如何呢?我们可以在蓝色和红色点之间画一个平面,分离这两类点。这恰恰就是神经网络做的事情。
神经网络学习可以被看成两部分的处理,它们学习的是数据的一种非线性变换,以及基于这种变换的数据分类。考虑只有一层的神经网络,网络输出(忽略偏置项)是Y=Wφ(Vx),其中φ是非线性函数。目前神经网络所需做的事情就是将非线性变换通过φ(Vx)施加于x,然后再转换过的数据上执行现行分类任务。因此通过梯度下降算法学习是两个部分的过程。第一部分,学习最优化核或者函数(通过V);第二部分使用线性方法分类变换过的数据。这在Andrej Karpathy的主页中也阐释过。这里有一个链接可视化一个模型,去观察神经网络是如何应用核方法以及实施随后的分类任务,点这里就是链接。
下图展示了网站中神经网络应用核方法其中的一张:
0 0
- 为什么梯度下降法对于非线性可分数据有效
- 为什么梯度下降是有效的?
- 用梯度下降法解非线性方程
- 非线性优化之牛顿(梯度)下降法、高斯牛顿法、LM下降法
- 非线性可分数据最优超平面的构建
- 梯度下降和随机梯度下降为什么能下降?
- 梯度下降和随机梯度下降为什么能下降?
- 梯度下降和随机梯度下降为什么能下降?
- 数据分析---最小二乘法和梯度下降法
- 为什么通常牛顿法比梯度下降法能更快的收敛
- 为什么通常牛顿法比梯度下降法能更快的收敛
- 为什么通常牛顿法比梯度下降法能更快的收敛
- 为什么牛顿法比梯度下降法法更快收敛
- 为什么梯度下降慢而用随机梯度下降
- caffe softmax_loss_layer 对于梯度下降的理解
- 梯度下降法
- 梯度下降法
- 梯度下降法
- AndroidStudio 如何关闭 Install Run
- 安装widows mysql 免安装版(zip) 步骤详解 以及遇到问题解决 以及忘记密码的修改方法
- java中通过web service的方式传输文件
- HDU ACM 11 2096 小明A + B
- 第11周项目1 -二叉树算法验证(3)中序线索化二叉树的算法验证
- 为什么梯度下降法对于非线性可分数据有效
- 第三方支付公司是如何解决用户有意或无意的重复支付的
- LinuxUDP网络通信
- Android事件分发机制
- Java-IO-字节流和字符流
- 得到JavaScript对象
- 【hdu 2063】过山车(匈牙利算法)
- 指针数组和数组指针
- permutations