Stanford机器学习课程笔记——多变量线性回归模型

来源:互联网 发布:ipad1越狱安装软件 编辑:程序博客网 时间:2024/04/29 20:43

Stanford机器学习课程笔记——多变量线性回归模型

    

1. 多变量线性回归模型引入


    前面一篇中学习了单变量的线性回归模型,那么自然就会想到多变量线性回归模型,以及非线性模型。这篇我们就学习。

    其实,前面的单变量,顾名思义就是样本的特征只有1个,那么多变量就是样本的特征有多个。同样是前面的房屋价格的例子,吴恩达大叔给出了多变量的例子,如下:



这个新例子中,每个样本的特征有4个(房屋面积,卧室个数,楼层,建筑年代),需要许褚的依旧是房屋的价格。

    多变量线性回归模型的假设和前面是类似的,只不过theta的个数随着变量个数增加而增加,为:。然后我们可以给theta_0配对一个x_0,这样整个形式就一样了。也就是:,其中我们可以令x_0=1,这样可以转换成常见的向量乘矩阵的形式。也就是:。其中的theta是行向量,里面都是线性回归模型中的参数,X是样本矩阵,每一列为一个样本(注意,这里和sklearn中的每一行为一个样本是不一样的)。


    有了假设,后面就是代价函数。多变量线性回归模型中的代价函数和单变量的相似,都是样本的误差平方和:


只不过其中h_0_x_i中x_i的个数增多了。

    同样,我们也可以使用梯度下降法来求解上述目标函数。其粗略的算法步骤如下:



其中关键指出在于假设h对所有表示系数theta_i的求导。其实也简单,因为h关于theta的表达式是线性的,那么求导自然就很方便啦,这里我们就直接贴出来吴恩达大叔的原稿:



这样就得到了更新所有theta时候的下降方向,不过要注意:所有theta_i的更新一定是同时的!


2. 特征缩放


    这个特征缩放,我理解类似与特征的归一化normalization. 这是样本多变量情况所特有的。因为样本有多个特征,而每个特征的量纲不完全一样,最大值最小值的取值范围也不同,所以我们需要把它们统一到-1到1之间。

    具体而言,对于其中一个特征,我们把所有样本在该特征维度上的值都提取出来,计算均值和标准差。然后利用下面公式归一化:


其中mu_n是均值,S_n是标准差。这样所有样本在该特征维度上的值均在-1到1之间了。


3. 学习率alpha


    这是梯度下降法中的学习率,它决定了在找到下降最快的方向之后,到底下降多少的程度。这是一个度的关系。可以说,梯度下降法这样子万能的求解最优化的选手收到影响的因素就两个,除了初始点的设置之外,还有一个就是它了。

    梯度下降法的求解效果收到了学习率大小的影响,如果alpha过小,那么收敛的速度会很慢,求解需要迭代的次数很多;如果alpha很大,那么可能使得更新的时候越过了局部最小值,导致无法收敛,求解失败。(不过这样子看来,还是设置小一些比较稳妥。。)


    画出代价函数值关于迭代次数的变化曲线,可以看出alpha设置的是否合理:



而如果alpha设置的不合理,那么代价函数的值可能会逐渐增大,或者在动荡:



    上面右图看的比较明显。那么这个学习率到底怎么设置呢?

     还是吴恩达大叔给出了建议:



   看出来了吧,先试一试小的alpha,0.001,如果感觉它太小了,那么再试一试0.01,如果太大了,返回来试一试0.003,这样子一次试下去。。。


4. 非线性回归——多项式回归


    开头我们提到了不是所有的数据都满足线性回归的,那么非线性回归又如何呢?这里我们学习一个简单的非线性回归模型,多项式回归,而且它还是可以转化成线性回归的。转换的思路如下:



也就是说,我们可以把后面的高次项重新用一个新的变量来表示,新的变量只是一次的,这样我们整个模型都是一次的。接下来我们继续可以使用线性回归模型的方法求解。梯度下降法啊,代价函数啊,都是适用的。


5. 正规方程——解析解


    课程中说这个是正规方程,刚开始看还不是很理解,后面知道了,其实这里就是解析解。因为我们前面的梯度下降法求得的都是局部最优,不是全局的。这个是解析解,全局的。

    说是解析解,是因为回归模型中的代价函数都是可以求导,令导数为零,求得最优解的。那么回到我们刚才说的代价函数形式,我们把假设h的向量乘矩阵的形式带入代价函数中,再求导,即可得:



其中矩阵X是样本特征矩阵,这个是我们直接就有的,y也是直接有的。也就是说,我们可以把X和y带入上式,就可以一下子求得最优的theta向量了。

    但是,我们要注意计算时间复杂度。因为这个求解公司中有矩阵的逆运算,它的时间复杂度是O(n^3),而且有的时候不是满秩,不可以求逆运算。所以这两个方法(解析解和梯度下降法)各有利弊,总结如下:



其实,遇到不可求逆的情况,分析原因可知:这个因为矩阵不满秩,也就是说代表矩阵X行数的样本特征维数大于代表列数的样本个数,这就是传统的小样本问题。这个时候,我们可以先用PCA降维,把样本的特征维数降低,小于样本的个数,这样就可以了。




已经写到一半的博文突然就没有了,CSDN上面也没有自动保存,晕。。。吐槽一下这个编辑器。。


参考:

http://blog.csdn.net/abcjennifer/article/details/7700772


《Coursera机器学习笔记》

1 0
原创粉丝点击