Andrew Ng的 Machine Learning 读书笔记 Lecture 2

来源：互联网发布：剧本写作软件编辑：程序博客网时间：2024/06/05 16:31

解释：训练数据去通过算法去训练一个模型，最后训练好的模型就形成了一个预测函数h

解释：梯度下降算法，如果选取的参数的初始化值不一样，梯度下降算法得到的最优解可能也不一样，可能会达到不同的局部最优解。

梯度下降算法的伪代码：correct的代码，所有参数都是同步更新的，Incorrect代码先更新了参数θ0，然后在更新θ1,显然是不同步的，一般我们所讲的梯度下降算法都要同步更新所有的参数。

梯度下降算法的理解：以代价函数为开口向上的抛物线举例，当梯度是正数时，学习率也是正的，所以θ的值就会减少，逼近那个最低点，当梯度是赋的，θ的值会增加，逼近那个最低点。

如果学习率α太小，则可能收敛过慢，如果过大，则可能震荡或发散。

解释：如果参数的初始化值是就已经在一个局部的最优解，则执行梯度下降算法后，也只会取到局部最优解。

解释：假设学习率α是固定的，因为当从参数θ逼近最低点时，其斜率会越来越小，逼近于零，那么参数的更新步长，（步长=学习率*梯度）就会越来越小，也就是说当θ逼近最低点时就会慢慢往最低点移动。

0 0