CS229——NODE1part1

来源:互联网 发布:淘宝10元跳蛋靠谱吗 编辑:程序博客网 时间:2024/06/06 03:22

线代矩阵迹相关知识:
这里写图片描述
这里写图片描述

线性回归解决连续性回归问题
线性回归假设特征和结果满足线性关系。其实线性关系的表达能力非常强大,每个特征对结果的影响强弱可以有前面的参数体现,而且每个特征变量可以首先映射到一个函数,然后在参与线性计算。这样就可以表达特征与结果之间的非线性关系。
这里写图片描述
θ在这里称为参数,意思是调整feature中每个特征的影响力,这里我们令X0=1则
这里写图片描述
此时,我们需要一个机制去评估我们的θ是否合理,意思是我们需要对h函数进行评估,一般这个函数我们成为成本函数或者损失函数(loss function or error function),描述h函数的好坏程度,我们称这个函数为J函数。
这里写图片描述
为何要用平方和作为损失估计函数?
假设根据特征预测的结果与实际结果有误差∈(i),那么预测结果θX和真实结果满足:
这里写图片描述
一般来讲,误差满足平均值为0的高斯分布,也就是正太分布(统计得来)。那么x和y的条件概率也就是:
这里写图片描述
这样就估计了一条样本的结果概率,然而我们期待的是模型能够在全部样本上预测最准,也就是概率积最大。这个概率积成为最大似然估计。我们希望在最大似然估计得到最大值时确定θ,那么对最大似然估计公式求导(实际上使用对数更为简单,此处使用对数)得到:
这里写图片描述
l(θ)取得最大值,意味着:
这里写图片描述
取得最小值。
这样就解释了为什么误差函数要使用平方和。
推导过程假设误差符合高斯分布,但是这个假设符合客观规律。

那么如何调整θ使得J(θ)取得最小值呢,其中有最小二乘法和梯度下降法。

梯度下降法:
在选定线性回归模型后,只需要确定参数θ,就可以将模型用来预测。然而θ需要在J(θ)最小的情况下才能确定,因此问题转化为求极小值问题,使用梯度下降法,梯度下降法求得的可能是全局极小值或局部极小值,这与初始点的选取有关。
(1):首先对θ赋值,这个值可以是随机的。
(2):改变θ的值,使得J(θ)按梯度下降的方向进行减少。

梯度方向由J(θ)对θ的偏导数确定,由于求的是极小值,因此梯度方向是偏导数的反方向,结果为:
这里写图片描述
迭代更新有两种方式,一是批量梯度下降,也就是对全部训练数据求得误差后再对θ进行更新,另外一种是随机梯度下降,没扫描一步都对θ进行更新。
批量梯度下降:容易被局部最小值影响,而且当训练集过大时,每更新一步都得耗时巨大。
随机梯度下降:耗时少,但是有可能不断在收敛处徘徊,导致无法收敛到最小值。

最小二乘法:(需要矩阵导数和迹的相关知识)
接下来咱们就继续用逼近模型(closed-form)来找到能让J(θ)最小的θ值。
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
最后要让J的值最小,就是要找到导数为0的点,
这里写图片描述
得到:
这里写图片描述
所以让J(θ)取值最小的θ就是:
这里写图片描述

//不理解//
最大似然估计:
在已知实验结果(样本)下,用来估计满足这些样本分布的参数,把可能性最大的那个参数θ作为真实参数θ的参数估计。
中心思想:当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得从模型中抽取该n组样本的观测值最大,而不是像最小二乘法那样使得模型更好拟合样本数据的参数估计值。

阅读全文
0 0
原创粉丝点击