为什么 feature scaling 会使 gradient descent 的收敛更好？

来源：互联网发布：js向div添加html 编辑：程序博客网时间：2024/05/21 09:05

个人认为比较好的解释是：
首先，对于gradient descent算法来说，learning rate的大小对其收敛速度至关重要。如果feature的scale不同，理论上不同的feature就需要设置不同的learning rate，但是gradient descent只有一个learning rate，这就导致不同feature的收敛效果不同，从而影响总体的收敛效果。所以在求解模型之前归一化不同feature的scale，可以有效提高gradient descent的收敛速度。除此之外，如果feature的scale相差很大，则会出现scale越大的feature，对模型的影响越大。比如对于multivariate regression, 极端情况下, 有一个特征的值特别特别大，其他特征的值都特别特别小，那么cost function就被这个特别大的特征主导，甚至退化为univariate。

作者：王栋
链接：https://www.zhihu.com/question/37129350/answer/70640800
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

阅读全文

0 0