对回归方法的认识

来源:互联网 发布:淘宝分类全屏 编辑:程序博客网 时间:2024/04/28 03:49

1.线性回归:

        线性回归假设特征和结果满足线性关系。其实线性关系的表达能力非常强大,每个特征对结果的影响强弱可以由前面的参数体现,而且每个特征变量可以首先映射到一个函数,然后再参与线性计算。这样就可以表达特征与结果之间的非线性关系。

损失函数或者错误函数:如何调整θ以使得J(θ)取得最小值有很多方法,其中有最小二乘法(min square),是一种完全是数学描述的方法和梯度下降法。

梯度下降法:

        在选定线性回归模型后,只需要确定参数θ,就可以将模型用来预测。然而θ需要在J(θ)最小的情况下才能确定。因此问题归结为求极小值问题,使用梯度下降法。梯度下降法最大的问题是求得有可能是全局极小值,这与初始点的选取有关。

梯度下降法是按下面的流程进行的:

(1)首先对θ赋值,这个值可以是随机的,也可以让θ是一个全零的向量。

(2)改变θ的值,使得J(θ)按梯度下降的方向进行减少。

梯度方向由J(θ)对θ的偏导数确定,由于求的是极小值,因此梯度方向是偏导数的反方向。

批梯度下降:

     

迭代更新的方式有两种,一种是批梯度下降,也就是对全部的训练数据求得误差后再对θ进行更新,另外一种是增量梯度下降,每扫描一步都要对θ进行更新。前一种方法能够不断收敛,后一种方法结果可能不断在收敛处徘徊。

增量梯度下降:


最小二乘法:

将训练特征表示为X矩阵,结果表示成Y向量,仍然是线性回归模型,误差函数不变。那么θ可以直接由下面公式得出:


但此方法要求X是列满秩的,而且求矩阵的逆比较慢


选用误差函数为平方和的概率解释:

假设根据特征的预测结果与实际结果有误差,那么预测结果和真实结果满足下式:


一般来讲,误差满足平均值为0的高斯分布,也就是正态分布。那么x和y的条件概率也就是


这样就估计了一条样本的结果概率,然而我们期待的是模型能够在全部样本上预测最准,也就是概率积最大。这个概率积成为最大似然估计。我们希望在最大似然估计得到最大值时确定θ。那么需要对最大似然估计公式求导,求导结果是


这就解释了为何误差函数要使用平方和。

一般的最小二乘法目的实际上是在假设误差项满足高斯分布且独立同分布的情况下,使似然性最大化

2.分类和对数回归:

        一般来说,回归方法不用在分类问题上,因为回归是连续型模型,而且受噪声影响比较大。如果非要应用,可以使用对数回归。

       对数回归本质上是线性回归,只是特征到结果的映射中加入了一层函数映射,即先把特征线性求和,然后使用函数g(z)将作为假设函数来预测。g(z)可以将连续值映射到0和1上。

       对数回归的假设函数如下,线性回归假设函数只是



对数回归用来分类0/1问题,也就是预测结果属于0或者1的二值分类问题。这里假设了二值满足伯努利分布,也就是:


当然假设它满足泊松分布、指数分布等等也可以,只是比较复杂,后面会提到线性回归的一般形式。

阅读全文
0 0