机器学习-回归

来源：互联网发布：足球战术设计软件编辑：程序博客网时间：2024/05/20 16:31

线性回归

如果我们有数据集D{（xi，yi）}，假如这些数据是连续的，那么我们将这些数据叫做回归，如果这些数据是离散的，那么我们叫这些数据是分类；在回归中我们最常见的就是线性回归。
案例：房屋价格与面积（x1）和卧室数量（x2）的关系模型表达式
：
这里的这里写图片描述是估计参数，这里的x变量，后面我们会根据给定的样本来估计那些的值，最后来使模型做更好的预测。
向量的表示就是下面的那个（x0是恒等于1），这里的X向量可能多个变量样本，x和y是已知的只有是未知的，当实际值与预测值之间的误差叫做这里写图片描述，所以我们可以表示成：
，误差是独立同分布的，服从均值为0（因为我们可以找到一个平面将数据分为上下两侧，所以最后均值为0），方差为某一个定值得高斯分布。
原因：中心极限定理

线性回归进一步分析：可以对样本是非线性的，只要对参数线性；（特征的多次方）—-（核函数：svm中的知识）

高斯分布

如果当做够多的随机变量经过叠加之后，根据中心极限定理，那么他就服从正态分布，就是高斯分布。那么上边的变量这里写图片描述也就是服从高斯分布。
中心定理的意思：可以看做众多因素的独立影响的综合反映，往往近似服从正态分布（前提是随机变量的和）

最大似然估计

所以上面的这里写图片描述
可以写成概率密度函数：

（概率密度函数是某个确定的点所对应的函数），由于总的概率是各自的y的概率是乘积，那么所以乘积就是最大似然函数L 这里写图片描述，
计算过程如下：

当我们得到J就是我们的目标函数，就是要让目标函数最小就行。

本质：已知前面样本的结果，推测一个参数使得让前面结果出现最大概率；

最小二乘的本质

得到j 这里写图片描述就是一种最小二乘，我们得到这种最小二乘是假定误差服从高斯分布，认为样本是独立的，使用最大似然估计得到j(theta)，

本质：求得一个参数使得前面的结果和已知结果距离误差最小；
说说而已：———{
假设：内涵性（根据常理是应该正确的）；
简化性（接近真实）例如文档的词的出现概率是独立的；
发散的（简化下推导的结论不一定在假设下才成立，其他情况也成立），}

求解过程

的求解过程：
既然是J 这里写图片描述最小，那么就要梯度，就是驻点。
说明一下求导过程中的问题补充：，
这里的A是一个对称方针，X^T*X一定是对称矩阵。最后得到 theta 表达式若X^T*X不可逆或者防止过拟合（通俗：学到了噪声特征-并且希望不要太大），增加一个扰动参数这里写图片描述所以将目标函数写成：这里的指多大的参与度来进行运算，这里的 j^2叫做L2（Ridge）正则， L1（Lasso）正则是的绝对值和，不是平方了。表示方法：
，当用上正则项后变小了，所以，并且防止了过拟合了，L1（Lasso）正则（高阶特征变得非常小，所以非常重要的特性就是特征选择，所以可以使用Lasso做降维）和L2（Ridge）结合使用
：
这里写图片描述结合使用的原因：L1具有特征选择的能力，但是L2没有，但是L2的性能比较好,L1的性能有些时候不怎么好。为什么L1具有特征选择能力：因为当我们求参数时，某些特征的参数特别小或者为0，所以具有特征选择能力。
—– 上述过程可以参考吴恩达的推导过程，在那里是采用tr迹的方式推导。

数据的使用

需要有训练数据，测试数据，验证数据（调整这里写图片描述）
1：交叉验证（十折交叉验证）；
2：留出法；
3：自助法；

Logistic回归

这里的Logistic回归，虽然叫做回归，但是他只是一种广义线性回归的特例表示，他主要是解决离散的二分类问题。如果要解决多分类的问题可以采用：第一种方法就是多个二分类一起使用，还有一个就是softmax回归这种方法；

分类问题的首选算法

使用回归的思想解决分类问题；
这里写图片描述

Logistic回归/sigmoid函数：
这里写图片描述

图形：

分析入口：
Logistic回归的参数估计：
这里写图片描述

这里就得到了似然函数了，然后取对数求解：
这里写图片描述
然后对求导，
为什么要求导呢？因为我们需要得到最优的参数，利用梯度算法来求解。得到的学习算法：

这里是梯度上升，因为要求到最大概率；
所以随机梯度和批梯度：

和线性回归具有相同形式，学习规则，等等相同；
不同：
在线性回归中我们是假设误差满足高斯分布，利用最大似然估计来求得的；
在Logistic回归中，我们是假设样本服从二项分布，利用最大似然估计来求得的；

所以：高斯分布和二项分布等等分布具有某种联系：那就是指数族分布；
多项分布适用于：有k个结果的事件建模
泊松分布：计数建模
伯努利分布：0/1的结果建模
伽马分布和指数分布：时间间隔建模

上述的分布也都属于广义的线性模型（对数的线性模型）；

所以Logistic推导就是：
这里写图片描述

多分类：Softmax回归

这里写图片描述

梯度下降算法：

这里写图片描述
1：首先初始化（随机初始化）；
2：沿着负梯度方向迭代，更新使得J 更小；

是学习率，步长。但是梯度下降算法只能找到局部最小；
批梯度下降算法（所有样本加起来）非常重要的算法：

随机梯度下降：
这里写图片描述
优先选择随机梯度下降：
1：速度快
2：有些时候可能会找到更好的优解。
3：可以做在线学习

总结：

1：特征选择：人工选择，随机森林，PCA（主成分分析），LDA（主题模型）；
2：梯度下降算法是参数优化的重要手段，尤其是SGD（跳出局部最小，在线学习）；
3：Logistic回归和softmax回归是解决分类最重要的方法；

思考题：
这里写图片描述

阅读全文

0 0