梯度下降法的数学推导

来源:互联网 发布:什么是云计算和大数据 编辑:程序博客网 时间:2024/04/28 05:38

第一次接触梯度下降法是从Andrew Ng的机器学习课程上,当时看到这个公式有点疑惑,为什么这样迭代几次最后就能收敛到局部极值呢?
这里写图片描述

其中,α称为学习率,是一个能自己设定的常数,通常很小,下面还会讲到;θ是各个参数的权重(是一个向量),因为我们的目标是确定一个θ向量使得下式得到最小值:
这个问题的来源可以参看这个博客(http://blog.csdn.net/abcjennifer/article/details/7691571)
这里写图片描述

这个地方我当时还疑惑:直接求导让导数为“0”不就能取得极值么?学到后面发现思想是对的,实际是不可行的,比如有时候求解这样的方程组非常复杂.
回到最开始的问题,为什么用梯度下降法能收敛到极值呢?

这里写图片描述
这里写图片描述

引用文献

  1. Stanford机局部优化算法之一: 梯度下降法器学习—第一讲. http://blog.csdn.net/abcjennifer/article/details/7691571
  2. 梯度下降法 http://blog.csdn.net/woxincd/article/details/7040944
  3. 局部优化算法 李金屏
0 0
原创粉丝点击