机器学习-回归

来源:互联网 发布:足球战术设计软件 编辑:程序博客网 时间:2024/05/20 16:31

线性回归

如果我们有数据集D{(xi,yi)},假如这些数据是连续的,那么我们将这些数据叫做回归,如果这些数据是离散的,那么我们叫这些数据是分类;在回归中我们最常见的就是线性回归。
案例:房屋价格与面积(x1)和卧室数量(x2)的关系模型表达式
模型表达
这里的这里写图片描述是估计参数,这里的x变量,后面我们会根据给定的样本来估计那些这里写图片描述的值,最后来使模型做更好的预测。
向量的表示就是下面的那个(x0是恒等于1),这里的X向量可能多个变量样本,x和y是已知的只有这里写图片描述是未知的,当实际值与预测值之间的误差叫做这里写图片描述,所以我们可以表示成:
公式,误差这里写图片描述 是独立同分布的,服从均值为0(因为我们可以找到一个平面将数据分为上下两侧,所以最后均值为0),方差为某一个定值这里写图片描述 得高斯分布。
原因:中心极限定理

线性回归进一步分析:可以对样本是非线性的,只要对参数线性;(特征的多次方)—-(核函数 :svm中的知识)


高斯分布

如果当做够多的随机变量经过叠加之后,根据中心极限定理,那么他就服从正态分布,就是高斯分布。那么上边的变量这里写图片描述也就是服从高斯分布。
中心定理的意思:可以看做众多因素的独立影响的综合反映,往往近似服从正态分布(前提是随机变量的和)


最大似然估计

所以上面的这里写图片描述
可以写成概率密度函数:
这里写图片描述

(概率密度函数是某个确定的点所对应的函数),由于总的概率是各自的y的概率是乘积,那么所以乘积就是最大似然函数L这里写图片描述
计算过程如下:
这里写图片描述
当我们得到J这里写图片描述就是我们的目标函数,就是要让目标函数最小就行。

本质:已知前面样本的结果,推测一个参数使得让前面结果出现最大概率;


最小二乘的本质

得到j这里写图片描述就是一种最小二乘,我们得到这种最小二乘是假定误差服从高斯分布,认为样本是独立的,使用最大似然估计得到j(theta),

本质:求得一个参数使得前面的结果和已知结果距离误差最小;
说说而已:———{
假设:内涵性(根据常理是应该正确的);
简化性(接近真实)例如文档的词的出现概率是独立的;
发散的(简化下推导的结论不一定在假设下才成立,其他情况也成立),}


求解过程

符号 的求解过程:
说明 既然是J这里写图片描述最小,那么就要梯度,这里写图片描述就是驻点。
说明一下求导过程中的问题补充: 这里写图片描述
这里的A是一个对称方针,X^T*X一定是对称矩阵。最后得到theta 表达式答案 若X^T*X不可逆或者防止过拟合(通俗:学到了噪声特征-并且希望这里写图片描述不要太大),增加一个扰动参数这里写图片描述 所以将目标函数写成:这里写图片描述 这里的这里写图片描述 指多大的参与度来进行运算,这里的这里写图片描述 j^2叫做L2(Ridge)正则 , L1(Lasso)正则是这里写图片描述 的绝对值和,不是平方了。表示方法:
这里写图片描述 ,当用上正则项后这里写图片描述 变小了,所以 ,并且防止了过拟合了,L1(Lasso)正则(高阶特征变得非常小,所以非常重要的特性就是特征选择,所以可以使用Lasso做降维)和L2(Ridge)结合使用

这里写图片描述 结合使用的原因:L1具有特征选择的能力,但是L2没有,但是L2的性能比较好,L1的性能有些时候不怎么好。为什么L1具有特征选择能力:因为当我们求参数时,某些特征的参数特别小或者为0,所以具有特征选择能力。
—– 上述过程可以参考吴恩达的推导过程,在那里是采用tr迹的方式推导。


数据的使用

需要有训练数据,测试数据,验证数据(调整这里写图片描述
1:交叉验证(十折交叉验证);
2:留出法;
3:自助法;


Logistic回归

这里的Logistic回归,虽然叫做回归,但是他只是一种广义线性回归的特例表示,他主要是解决离散的二分类问题。如果要解决多分类的问题可以采用:第一种方法就是多个二分类一起使用,还有一个就是softmax回归这种方法;

分类问题的首选算法

使用回归的思想解决分类问题;
这里写图片描述

Logistic回归/sigmoid函数:
这里写图片描述
这里写图片描述
图形:
这里写图片描述

分析入口:
Logistic回归的参数估计:
这里写图片描述

这里就得到了似然函数了,然后取对数求解:
这里写图片描述
然后对这里写图片描述 求导,
为什么要求导呢?因为我们需要得到最优的参数,利用梯度算法来求解。得到的学习算法:
这里写图片描述
这里是梯度上升,因为要求到最大概率;
所以随机梯度和批梯度:
这里写图片描述
和线性回归具有相同形式,学习规则,等等相同;
不同:
在线性回归中我们是假设误差满足高斯分布,利用最大似然估计来求得的;
在Logistic回归中,我们是假设样本服从二项分布,利用最大似然估计来求得的;

所以:高斯分布和二项分布等等分布具有某种联系:那就是指数族分布;
多项分布适用于:有k个结果的事件建模
泊松分布:计数建模
伯努利分布:0/1的结果建模
伽马分布和指数分布:时间间隔建模

上述的分布也都属于广义的线性模型(对数的线性模型);

所以Logistic推导就是:
这里写图片描述
这里写图片描述


多分类:Softmax回归

这里写图片描述


梯度下降算法:

这里写图片描述
1:首先初始化这里写图片描述 (随机初始化);
2:沿着负梯度方向迭代,更新这里写图片描述 使得J这里写图片描述 更小;
这里写图片描述
这里写图片描述 是学习率,步长。但是梯度下降算法只能找到局部最小;
批梯度下降算法(所有样本加起来)非常重要的算法:
这里写图片描述
随机梯度下降:
这里写图片描述
优先选择随机梯度下降:
1:速度快
2:有些时候可能会找到更好的优解。
3:可以做在线学习

总结:

1:特征选择:人工选择,随机森林,PCA(主成分分析),LDA(主题模型);
2:梯度下降算法是参数优化的重要手段,尤其是SGD(跳出局部最小,在线学习);
3:Logistic回归和softmax回归是解决分类最重要的方法;

思考题:
这里写图片描述

原创粉丝点击