2.4梯度下降法

来源：互联网发布：驱动中国双十一数据编辑：程序博客网时间：2024/05/29 11:51

如何上图所示，我们将J在空间的图形表示出来，可以看到这是一个凸函数，这是我们将它作为logistic回归这个特性成本函数的重要原因之一，因为我们可以找到全局最优解。如果是下图的类似波浪线那种，那么你猜你能找到全局最优解吗？

梯度下降算法，上图找个点，让函数初始化，因为它是凸的，所以怎么初始化的都回收敛，我们找到一个图中红色那点红色初始化，如下图：

我们看到函数会每一步都朝着最陡下坡的方向收敛，每走一步，函数都回迭代一次，并且选择下降梯度最快的方向往下走，最后收敛达到最优解。

细节：取其中一条曲线来说明（任何一条），J(w)对w求导，然后这个叫学习率（learning rate）,用来控制迭代或者是梯度下降中的步长。然后就是对w求导数，然后：=是对W不断更新赋值，因为导数是正的(右半部分)，所以W会越来越小，直至达到最优解。然后对b的操作也是一样的情只不过这次将w看成常数，将b看成变量，最后w,b就可以确定了。

阅读全文

0 0