为什么 feature scaling 会使 gradient descent 的收敛更好?
来源:互联网 发布:js向div添加html 编辑:程序博客网 时间:2024/05/21 09:05
个人认为比较好的解释是:
首先,对于gradient descent算法来说,learning rate的大小对其收敛速度至关重要。如果feature的scale不同,理论上不同的feature就需要设置不同的learning rate,但是gradient descent只有一个learning rate,这就导致不同feature的收敛效果不同,从而影响总体的收敛效果。所以在求解模型之前归一化不同feature的scale,可以有效提高gradient descent的收敛速度。除此之外,如果feature的scale相差很大,则会出现scale越大的feature,对模型的影响越大。比如对于multivariate regression, 极端情况下, 有一个特征的值特别特别大,其他特征的值都特别特别小,那么cost function就被这个特别大的特征主导,甚至退化为univariate。
作者:王栋
链接:https://www.zhihu.com/question/37129350/answer/70640800
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
阅读全文
0 0
- 为什么 feature scaling 会使 gradient descent 的收敛更好?
- Gradient Descent 0 - Feature Scaling
- Stochastic Gradient Descent收敛判断及收敛速度的控制
- Stochastic Gradient Descent收敛判断及收敛速度的控制
- 梯度下降实用技巧I之特征缩放 Gradient Descent in practice I - feature scaling
- 4 - 3 - Gradient Descent in Practice I - Feature Scaling (9 min)
- feature scaling的作用
- gradient descent 的python实现
- Feature scaling
- Feature scaling
- gradient descent
- gradient descent
- Gradient Descent
- Gradient descent
- Gradient Descent
- 深度学习—加快梯度下降收敛速度(一):mini-batch、Stochastic gradient descent
- 基本的gradient descent梯度下降法
- (Stochastic gradient descent)和 (Batch gradient descent )的对比
- 菜单编写(VC_Win32)
- VIew的位置信息
- linux安装mysql之设置远程访问权限
- 简单了解Apache CXF
- spring aop理解
- 为什么 feature scaling 会使 gradient descent 的收敛更好?
- jQuery
- 牛人的博客(图像处理,机器视觉,机器学习等)
- 大数据-什么是云计算技术,云技术用什么语言开发
- 《道德经》第四十四章
- 在vue中使用vux
- eclipse 转 Android Studio 使用
- Java子类和父类构造器问题分析
- Mysql LAST_INSERT_ID()函数