Coursera Machine Learning Week 1.2: Linear Regression.one variable

来源：互联网发布：实战nginx 下载编辑：程序博客网时间：2024/04/30 03:00

regression问题是predict real-valued output

classification问题是discrete-valued output

linear regression

这是老师的笔记，cost function就是图中的J(西塔1，西塔2)，也就是说在training data中，要让真实值和regression后得出的值的差的平方和最小，这也是Squared error function。

那么 to minimize the cost function，我们要用到一个算法叫gradient descent，梯度下降。

从图中可以看到，先选择一个西塔0西塔1，然后每次寻找一个梯度最大的方向，也就是斜率最大的方向，往这个方向走一步，然后再同样的走，直到找到一个局部最优值。

这张图表明了gradient descent算法的数学表达，求导表明寻找出梯度最大的那个方向，阿尔法是learning rate，也就是每次要减去的值，西塔0和西塔1要simultaneously update。

而阿尔法的大小也很讲究，下图就说明了原因。

但其实这个阿尔法就算是定值，他也能最后达到收敛，达到局部最优值，因为在一开始这个点上，选择的最大梯度比较大，但是随着越来越接近最优值，这个最大梯度会越来越小，所以没必要变化阿尔法，这个最大梯度会自动变小。

0 0