机器学习第一周(二)--模型引入

来源:互联网 发布:coc弓箭女皇升级数据 编辑:程序博客网 时间:2024/06/05 18:33

  • 假设函数Hypothesis
  • 损失函数Cost function
  • 梯度下降
    • 学习速率
    • 梯度下降应用到线性回归
    • 梯度下降表达式
  • 涉及到的计算

回顾监督学习的流程
监督学习流程

假设函数–Hypothesis

以预测房价作为问题的引入:
这里写图片描述
X轴为房子面积,Y轴为价格
这里X可看作数据的输入,也就是一个feature;Y看做输出,也就是房价。(这个例子只有一个特征)
我们要做的就是针对给定一个输入X,也就是房子面积。通过学习算法得到的最优模型也就是h来预测房子的价格。
显而易见,预测的结果与房子的真实价格越逼近越好,所以h的选择(其实就是参数theta的选择)尤为重要。
h我们称之为假设函数(也就是图中的绿线),这里我们用如下表示
假设函数

损失函数–Cost function

我们用预测结果与真实价格的误差评判h的优劣。即(h-y)
我们用损失函数来表示这一结果:
损失函数
要误差越小越好,当然我们要找到损失函数的全局最小值
这里写图片描述
调整参数找到损失函数的全局最小,由此引入梯度下降
(这里放上理解的关系图,画的不是十分恰当)
这里写图片描述


梯度下降

梯度下降:
梯度下降算法
α 称学习速率
j=0,1表示特征索引,应该同步更新参数θ ……(向量化表示更简单)
同步更新
梯度下降示意图
X,Y轴表示θ 0和θ 1,Z轴表示损失函数
不断地改变θ 的值,最终损失函数会收敛到一个最小值位置(注意,这个最小值不一定是全局最小,有可能是局部最小,但如果损失函数是一个凸函数时,梯度下降法得到的一定是全局最优解)α 决定梯度下降的每一步,每一步下降的方向由J(theta)的偏导数决定,如当损失函数从俩个不同的位置开始下降时,得到的会是俩个不同的值(图中的俩个箭头)。

学习速率

学习速率α 的重要性:如果α 太小,梯度下降会很慢,如果α 太大,梯度下降可能会错过最小值,最终导致不能收敛,甚至是发散。
alpha的选取

学习速率保持不变时,梯度下降也能收敛到局部最小(前提是学习速率合理,不能过大过小),因为当得到一个局部最小时,梯度下降会自动take smaller steps,所以不需要去减小学习速率。


梯度下降应用到线性回归:

Gradient descent for  linear Regression

当单变量(m = 1)时,我们做如下化简:
这里写图片描述


梯度下降表达式

推广到一般的,对梯度下降有以下:
这里写图片描述
这里提到的梯度下降是批量梯度下降,每一步更新参数时都要用到所有的样本数据。


涉及到的计算

这里写图片描述
有时候会涉及到一些计算,如上,只要分出预测得到的值和实际值俩个不同。知晓假设函数。
如题:θ1=0  所以通过计算可得J(0)=14/6