【斯坦福---机器学习】复习笔记之监督学习应用.梯度下降

来源:互联网 发布:微信霸屏源码 编辑:程序博客网 时间:2024/06/05 17:34

本讲内容:

1.Linear regression(线性回归)
2.Gradient descent(梯度下降)
3.Normal equation(正规方程组)

supervised learning(监督学习):给定一组数据集,告诉算法正确的答案,经过训练,给定输入能够给出正确的输出。

开始一个监督学习的例子,房子面积和价格的关系:
关系
给定这样的数据,怎样预测其他房子的价格?

引入一些符号:
这里写图片描述表示输入变量,也叫做输入特性(本例中的居住面积)
这里写图片描述表示输出或者说目标变量(本例中预测的价格)
这里写图片描述表示训练样本
这里写图片描述这里写图片描述表示训练集

监督学习的流程如下图所示:
这里写图片描述

线性回归

为了使问题更加有趣,提供一个更加丰富的数据集,还知道房子的卧室数量:
这里写图片描述
假设y是x的一个线性函数:
这里写图片描述
假设X0=1,得到:这里写图片描述
其中,n是输入变量的数目(不包括x0)。

为了表示这里写图片描述这里写图片描述的距离,定义函数:
这里写图片描述

1 LMS 算法

我们需要求出使得这里写图片描述最小化的这里写图片描述

考虑梯度下降算法,给定初值,反复更新这里写图片描述的值:
这里写图片描述
其中这里写图片描述是学习速度;

假设只有一个训练样本,则有:
这里写图片描述
对于单个样本,更新规则如下:
这里写图片描述
这个就是LMS更新规则(least mean squares,最小二乘法)

如果样本不止一个,需要修改更新的规则,
批处理梯度下降(batch gradient descent,每一步都要访问整个数据集):
这里写图片描述
随机梯度下降(stochastic gradient descent,每个样本进行一次更新):
这里写图片描述

随机梯度下降比批处理梯度下降收敛更快,当数据集比较大时,随机梯度下降优于批处理梯度下降。

2.正规方程组

现在讨论第二种最小化 J 的方法。

2.1矩阵导数
对一个由m*n阶矩阵映射到实数的函数:这里写图片描述,f对A的导数为:
这里写图片描述

例如,假设A=这里写图片描述,并且函数 f:这里写图片描述为:
这里写图片描述
得到:
这里写图片描述

矩阵的迹:
定义:对于n阶方阵A,这里写图片描述
对于实数a来说,tra = a.
性质:

  • trAB = trBA

  • trABC = trCAB = trBCA

  • trA = 这里写图片描述

  • tr(A+B) = trA + trB

  • tr aA = atrA

这里写图片描述

2.2 最小二乘法回顾
给定训练集,设计矩阵X定义为:
这里写图片描述
这里写图片描述

由于,这里写图片描述
这里写图片描述

再有,这里写图片描述

这里写图片描述

又因为,这里写图片描述
因此,
这里写图片描述

2 0
原创粉丝点击