2.4梯度下降法

来源:互联网 发布:驱动中国双十一数据 编辑:程序博客网 时间:2024/05/29 11:51




                如何上图所示,我们将J在空间的图形表示出来,可以看到这是一个凸函数,这是我们将它作为logistic回归这个特性成本函数的重要原因之一,因为我们可以找到全局最优解。如果是下图的类似波浪线那种,那么你猜你能找到全局最优解吗?



              梯度下降算法,上图找个点,让函数初始化,因为它是凸的,所以怎么初始化的都回收敛,我们找到一个图中红色那点红色初始化,如下图:

我们看到函数会每一步都朝着最陡下坡的方向收敛,每走一步,函数都回迭代一次,并且选择下降梯度最快的方向往下走,最后收敛达到最优解。


 


 


    

          细节:取其中一条曲线来说明(任何一条),J(w)对w求导,然后这个叫学习率(learning rate),用来控制迭代或者是梯度下降中的步长。然后就是对w求导数,然后:=是对W不断更新赋值,因为导数是正的(右半部分),所以W会越来越小,直至达到最优解。然后对b的操作也是一样的情只不过这次将w看成常数,将b看成变量,最后w,b就可以确定了。