（斯坦福机器学习公开课）梯度算法

来源：互联网发布：java递归获取子节点编辑：程序博客网时间：2024/06/06 03:39

梯度下降是一个用来求函数最小值的算法，我们将使用梯度下降算法来求出代价函数 J(θ0,θ1) 的最小值。

梯度下降背后的思想是：开始时我们随机选择一个参数的组合（θ0,θ1,...,θn），计算代价函数，然后我们寻找下一个能让代价函数值下降最多的参数组合。我们持续这么做直到到到一个局部最小值（local minimum），因为我们并没有尝试完所有的参数组合，所以不能确定我们得到的局部最小值是否便是全局最小值（global minimum），选择不同的初始参数组合，可能会找到不同的局部最小值。

想象一下你正站立在山的这一点上，站立在你想象的公园这座红色山上，在梯度下降算法中，我们要做的就是旋

转 360 度，看看我们的周围，并问自己要在某个方向上，用小碎步尽快下山。这些小碎步需要朝什么方向？如果我们

站在山坡上的这一点，你看一下周围，你会发现最佳的下山方向，你再看看周围，然后再一次想想，我应该从什么方

向迈着小碎步下山？然后你按照自己的判断又迈出一步，重复上面的步骤，从这个新的点，你环顾四周，并决定从什

么方向将会最快下山，然后又迈进了一小步，并依此类推，直到你接近局部最低点的位置

批量梯度下降（batch gradient descent）算法的公式为：

其中 α 是学习率（learning rate），它决定了我们沿着能让代价函数下降程度最大的方向向下迈出的步子有多大

，在批量梯度下降中，我们每一次都同时让所有的参数减去学习速率乘以代价函数的导数（就是向下山最快的方向迈了一步，因为曲线延切线方向变化最快）。

在梯度下降算法中，还有一个更微妙的问题，梯度下降中，我们要更新 θ0 和 θ1 ，当 j=0 和 j=1 时，会产生更新，所以你将更新 Jθ0 和 Jθ1。实现梯度下降算法的微妙之处是，在这个表达式中，如果你要更新这个等式，你需要同

时更新 θ0 和 θ1，我的意思是在这个等式中，我们要这样更新： θ0:= θ0 ，并更新 θ1:= θ1。实现方法是：你应该计

算公式右边的部分，通过那一部分计算出 θ0 和 θ1 的值，然后同时更新 θ0 和 θ1。

让我进一步阐述这个过程：

在梯度下降算法中，这是正确实现同时更新的方法。我不打算解释为什么你需要同时更新，同时更新是梯度下降

中的一种常用方法。我们之后会讲到，同步更新是更自然的实现方法。当人们谈到梯度下降时，他们的意思就是同步

更新。

0 0