为什么 feature scaling 会使 gradient descent 的收敛更好?

来源:互联网 发布:js向div添加html 编辑:程序博客网 时间:2024/05/21 09:05

个人认为比较好的解释是:
首先,对于gradient descent算法来说,learning rate的大小对其收敛速度至关重要。如果feature的scale不同,理论上不同的feature就需要设置不同的learning rate,但是gradient descent只有一个learning rate,这就导致不同feature的收敛效果不同,从而影响总体的收敛效果。所以在求解模型之前归一化不同feature的scale,可以有效提高gradient descent的收敛速度。除此之外,如果feature的scale相差很大,则会出现scale越大的feature,对模型的影响越大。比如对于multivariate regression, 极端情况下, 有一个特征的值特别特别大,其他特征的值都特别特别小,那么cost function就被这个特别大的特征主导,甚至退化为univariate。

作者:王栋
链接:https://www.zhihu.com/question/37129350/answer/70640800
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

原创粉丝点击