CS229——NODE1part1

来源：互联网发布：淘宝10元跳蛋靠谱吗编辑：程序博客网时间：2024/06/06 03:22

线代矩阵迹相关知识：
这里写图片描述

线性回归解决连续性回归问题
线性回归假设特征和结果满足线性关系。其实线性关系的表达能力非常强大，每个特征对结果的影响强弱可以有前面的参数体现，而且每个特征变量可以首先映射到一个函数，然后在参与线性计算。这样就可以表达特征与结果之间的非线性关系。
这里写图片描述
θ在这里称为参数，意思是调整feature中每个特征的影响力，这里我们令X0=1则

此时，我们需要一个机制去评估我们的θ是否合理，意思是我们需要对h函数进行评估，一般这个函数我们成为成本函数或者损失函数（loss function or error function），描述h函数的好坏程度，我们称这个函数为J函数。
这里写图片描述
为何要用平方和作为损失估计函数？
假设根据特征预测的结果与实际结果有误差∈（i），那么预测结果θX和真实结果满足：

一般来讲，误差满足平均值为0的高斯分布，也就是正太分布（统计得来）。那么x和y的条件概率也就是：
这里写图片描述
这样就估计了一条样本的结果概率，然而我们期待的是模型能够在全部样本上预测最准，也就是概率积最大。这个概率积成为最大似然估计。我们希望在最大似然估计得到最大值时确定θ，那么对最大似然估计公式求导（实际上使用对数更为简单，此处使用对数）得到：
这里写图片描述
l(θ)取得最大值，意味着：

取得最小值。
这样就解释了为什么误差函数要使用平方和。
推导过程假设误差符合高斯分布，但是这个假设符合客观规律。

那么如何调整θ使得J（θ）取得最小值呢，其中有最小二乘法和梯度下降法。

梯度下降法：
在选定线性回归模型后，只需要确定参数θ，就可以将模型用来预测。然而θ需要在J（θ）最小的情况下才能确定，因此问题转化为求极小值问题，使用梯度下降法，梯度下降法求得的可能是全局极小值或局部极小值，这与初始点的选取有关。
（1）：首先对θ赋值，这个值可以是随机的。
（2）：改变θ的值，使得J（θ）按梯度下降的方向进行减少。

梯度方向由J（θ）对θ的偏导数确定，由于求的是极小值，因此梯度方向是偏导数的反方向，结果为：
这里写图片描述
迭代更新有两种方式，一是批量梯度下降，也就是对全部训练数据求得误差后再对θ进行更新，另外一种是随机梯度下降，没扫描一步都对θ进行更新。
批量梯度下降：容易被局部最小值影响，而且当训练集过大时，每更新一步都得耗时巨大。
随机梯度下降：耗时少，但是有可能不断在收敛处徘徊，导致无法收敛到最小值。

最小二乘法：（需要矩阵导数和迹的相关知识）
接下来咱们就继续用逼近模型（closed-form）来找到能让J(θ)最小的θ值。
这里写图片描述

最后要让J的值最小，就是要找到导数为0的点，

得到：

所以让J（θ）取值最小的θ就是：

//不理解//
最大似然估计：
在已知实验结果（样本）下，用来估计满足这些样本分布的参数，把可能性最大的那个参数θ作为真实参数θ的参数估计。
中心思想：当从模型总体随机抽取n组样本观测值后，最合理的参数估计量应该使得从模型中抽取该n组样本的观测值最大，而不是像最小二乘法那样使得模型更好拟合样本数据的参数估计值。

阅读全文

0 0