梯度下降法的数学推导

来源：互联网发布：什么是云计算和大数据编辑：程序博客网时间：2024/04/28 05:38

第一次接触梯度下降法是从Andrew Ng的机器学习课程上，当时看到这个公式有点疑惑，为什么这样迭代几次最后就能收敛到局部极值呢？
这里写图片描述

其中，α称为学习率，是一个能自己设定的常数，通常很小，下面还会讲到；θ是各个参数的权重（是一个向量），因为我们的目标是确定一个θ向量使得下式得到最小值：
这个问题的来源可以参看这个博客（http://blog.csdn.net/abcjennifer/article/details/7691571）
这里写图片描述

这个地方我当时还疑惑：直接求导让导数为“0”不就能取得极值么？学到后面发现思想是对的，实际是不可行的，比如有时候求解这样的方程组非常复杂.
回到最开始的问题，为什么用梯度下降法能收敛到极值呢？

这里写图片描述

引用文献

Stanford机局部优化算法之一：梯度下降法器学习—第一讲. http://blog.csdn.net/abcjennifer/article/details/7691571
梯度下降法 http://blog.csdn.net/woxincd/article/details/7040944
局部优化算法李金屏

0 0