线性回归

来源:互联网 发布:m1216nfh网络打印驱动 编辑:程序博客网 时间:2024/05/22 17:36

线性模型

最小二乘法:LMS

线性回归:最小二乘法


基本形式

给定由d个属性描述的的样本X = {x1;x2,...,xd},其中xi为样本的第i维属性。线性模型就是通过样本的线性组合模式来判断该样本的函数,即


用向量的表达式即可以写为 :

 

线性模型通过组合样本的各个属性,构成一个线性函数来对样本进行描述。


多元线性回归

回归,也就是对给出的样本进行预测。通过给出的样本对线性模型就行学习,获得合适的模型参数从而建立一个线性模型。该模型可以对新来的样本进行描述,如预测、估计等。

给定m个样本D,其中x为d维向量,表示样本有d个属性,y表示对该样本的描述


建立这些样本的线性模型F


在这个模型中,我们可以用很多个不同的w 和 b 来构成不同的模型,那么不同的模型对样本属性X的线性则和描述Y是不同的,最好的参数是使得模型获得样本描述Y和实际的样本描述y完全一致。那么我们可以通过最小均方差来描述模型描述和样本实际情况之间的差值总和,通过最小化这个差值总和我们就能获得一个比较好的模型参数[w,b]使得模型对样本的描述效果最好。那么问题就转化为,如何求解合适的参数[W,b]使得最小均方差总和最小。该问题可以写成:


通过最小二乘法来解该问题可以得到该问题的解析解,通过坐标下降法可以得到该问题的数值解!

问题:为什么使用误差平方和?

参考最小二乘法中的极大似然解释。


广义线性回归

当通过线性模型得出的样本描述Y需要经过一个函数(联系函数)转换之后才能得到样本的描述y,那么这种经过联系函数的线性模型就是广义线性模型。

<对数线性回归>


<对数几率回归/逻辑回归>


[损失函数的推导:梯度下降法、牛顿法]


线性判别分析(LDA)

也称作Fisher 判别分析。

基本思想:给定训练样本集,将其投影到一条直线上,使得同类样例的投影尽可能靠近而非同类远离;然后将新样本也进行投影,根据其投影的位置来确定其类别。

类内散度:各个类内部样本的协方差和的总和。

类间散度:各类中中心点的协方差之和。

那么Fisher判别分析的目标就是:最大化类间散度和最小化类内散度。通长将两者的比值作为优化的目标函数。

[可以聚类的优化方法联系起来!!]


多分类学习

将样本分为多个类别,基本思路是拆解问题,即将多分类任务拆解为若干个二分类任务求解。经典的拆分策略分三种:一对一,一对其余,多对多。

一对一:将类别两两作为一组形成一个分类器,那么共有N(N-1)个分类。让样本经过这些分类其得出不同的分类结果,根据结果进行投票选出最多的类别作为最终结果。

一对其余:训练N个分类器,只有属于该类的才会被判为正例,其余分类器都是负例。

多对多:将若干类作为正类,若干类作为反类。


关于类别不平衡

指分类任务中不同类别的训练样本数目差别很大。这往往会使得训练出来的分类器失衡。即判断正例和反例的可能性不相同,而一个分类器应该确保两者是等可能性的。因此,通常通过再缩放来使得其重新平衡。主要的技术有:

欠采样:在样本过多的类别中去除一些。

过采样:在样本少的类别中增加一些。

阈值移动:按原有样本学习,但在最后决策过程中需要乘以一个因子进行校正。











原创粉丝点击