机器学习笔记2--梯度下降（Gradient decent）

来源：互联网发布：linux local命令编辑：程序博客网时间：2024/05/29 19:27

转载请注明链接：http://blog.csdn.net/cracked_hitter/article/details/78453617

该系列文章为对Andrew Ng老师ML视频的学习笔记。主要是对其中的知识做一些梳理，并加入自己的一些理解与公式的推导。文章记录的并不详细，只对一些知识的要点进行整理。可能文章中会有不当之处，也希望各位在阅读过程中不吝赐教。

-------------------------------------------------------------------------

一、问题引入

首先我们引入一个问题，作为该算法模型待解决的问题，即房屋价格问题。其中最简单的表示即房屋面积（输入变量）---房屋价格（输出变量）的单变量问题。

我们将该部分数据，以散点图的方式绘制在二维坐标系上，则如下图1所示。房屋面积与房屋价格之间是一种成正相关的关系，我们可以以一条线来对这些数据进行拟合，下图可以用公式来进行拟合，即一个关于输入变量x的一次函数。梯度下降算法即是一种实现这种最优拟合（误差最小）的一种算法。

二、代价函数J(theta)

在引入梯度下降之前，我们先要引入代价函数（Costfunction）的概念。代价函数是评判我们当前模型的好坏的标准之一，其定义为通过我们的预测函数计算结果与训练数据中结果的平方差（这里实则不是真正意义上的平方差，而是平方差的1/2。这里这样使用的原因是在下一步使用梯度下降时需要对J进行求导，在求导过程中会产生系数2刚好与1/2相乘为1）。J越大，预测结果与训练数据的偏差越大，所以我们需要通过我们的算法来寻找 minJ