机器学习-回归
来源:互联网 发布:足球战术设计软件 编辑:程序博客网 时间:2024/05/20 16:31
线性回归
如果我们有数据集D{(xi,yi)},假如这些数据是连续的,那么我们将这些数据叫做回归,如果这些数据是离散的,那么我们叫这些数据是分类;在回归中我们最常见的就是线性回归。
案例:房屋价格与面积(x1)和卧室数量(x2)的关系模型表达式
:
这里的是估计参数,这里的x变量,后面我们会根据给定的样本来估计那些的值,最后来使模型做更好的预测。
向量的表示就是下面的那个(x0是恒等于1),这里的X向量可能多个变量样本,x和y是已知的只有是未知的,当实际值与预测值之间的误差叫做,所以我们可以表示成:
,误差 是独立同分布的,服从均值为0(因为我们可以找到一个平面将数据分为上下两侧,所以最后均值为0),方差为某一个定值 得高斯分布。
原因:中心极限定理
线性回归进一步分析:可以对样本是非线性的,只要对参数线性;(特征的多次方)—-(核函数 :svm中的知识)
高斯分布
如果当做够多的随机变量经过叠加之后,根据中心极限定理,那么他就服从正态分布,就是高斯分布。那么上边的变量也就是服从高斯分布。
中心定理的意思:可以看做众多因素的独立影响的综合反映,往往近似服从正态分布(前提是随机变量的和)
最大似然估计
所以上面的
可以写成概率密度函数:
(概率密度函数是某个确定的点所对应的函数),由于总的概率是各自的y的概率是乘积,那么所以乘积就是最大似然函数L,
计算过程如下:
当我们得到J就是我们的目标函数,就是要让目标函数最小就行。
本质:已知前面样本的结果,推测一个参数使得让前面结果出现最大概率;
最小二乘的本质
得到j就是一种最小二乘,我们得到这种最小二乘是假定误差服从高斯分布,认为样本是独立的,使用最大似然估计得到j(theta),
本质:求得一个参数使得前面的结果和已知结果距离误差最小;
说说而已:———{
假设:内涵性(根据常理是应该正确的);
简化性(接近真实)例如文档的词的出现概率是独立的;
发散的(简化下推导的结论不一定在假设下才成立,其他情况也成立),}
求解过程
的求解过程:
既然是J最小,那么就要梯度,就是驻点。
说明一下求导过程中的问题补充: ,
这里的A是一个对称方针,X^T*X一定是对称矩阵。最后得到 表达式 若X^T*X不可逆或者防止过拟合(通俗:学到了噪声特征-并且希望不要太大),增加一个扰动参数 所以将目标函数写成: 这里的 指多大的参与度来进行运算,这里的 j^2叫做L2(Ridge)正则 , L1(Lasso)正则是 的绝对值和,不是平方了。表示方法:
,当用上正则项后 变小了,所以 ,并且防止了过拟合了,L1(Lasso)正则(高阶特征变得非常小,所以非常重要的特性就是特征选择,所以可以使用Lasso做降维)和L2(Ridge)结合使用
:
结合使用的原因:L1具有特征选择的能力,但是L2没有,但是L2的性能比较好,L1的性能有些时候不怎么好。为什么L1具有特征选择能力:因为当我们求参数时,某些特征的参数特别小或者为0,所以具有特征选择能力。
—– 上述过程可以参考吴恩达的推导过程,在那里是采用tr迹的方式推导。
数据的使用
需要有训练数据,测试数据,验证数据(调整)
1:交叉验证(十折交叉验证);
2:留出法;
3:自助法;
Logistic回归
这里的Logistic回归,虽然叫做回归,但是他只是一种广义线性回归的特例表示,他主要是解决离散的二分类问题。如果要解决多分类的问题可以采用:第一种方法就是多个二分类一起使用,还有一个就是softmax回归这种方法;
分类问题的首选算法
使用回归的思想解决分类问题;
Logistic回归/sigmoid函数:
图形:
分析入口:
Logistic回归的参数估计:
这里就得到了似然函数了,然后取对数求解:
然后对 求导,
为什么要求导呢?因为我们需要得到最优的参数,利用梯度算法来求解。得到的学习算法:
这里是梯度上升,因为要求到最大概率;
所以随机梯度和批梯度:
和线性回归具有相同形式,学习规则,等等相同;
不同:
在线性回归中我们是假设误差满足高斯分布,利用最大似然估计来求得的;
在Logistic回归中,我们是假设样本服从二项分布,利用最大似然估计来求得的;
所以:高斯分布和二项分布等等分布具有某种联系:那就是指数族分布;
多项分布适用于:有k个结果的事件建模
泊松分布:计数建模
伯努利分布:0/1的结果建模
伽马分布和指数分布:时间间隔建模
上述的分布也都属于广义的线性模型(对数的线性模型);
所以Logistic推导就是:
多分类:Softmax回归
梯度下降算法:
1:首先初始化 (随机初始化);
2:沿着负梯度方向迭代,更新 使得J 更小;
是学习率,步长。但是梯度下降算法只能找到局部最小;
批梯度下降算法(所有样本加起来)非常重要的算法:
随机梯度下降:
优先选择随机梯度下降:
1:速度快
2:有些时候可能会找到更好的优解。
3:可以做在线学习
总结:
1:特征选择:人工选择,随机森林,PCA(主成分分析),LDA(主题模型);
2:梯度下降算法是参数优化的重要手段,尤其是SGD(跳出局部最小,在线学习);
3:Logistic回归和softmax回归是解决分类最重要的方法;
思考题:
- 机器学习-线性回归
- 机器学习-Logistic回归
- 【机器学习】线性回归
- 机器学习-线性回归
- 机器学习-logistic回归
- 机器学习 线性回归
- 【机器学习】Logistic回归
- 机器学习-线性回归
- 机器学习-逻辑回归
- 机器学习--线性回归
- 机器学习-Logistic回归
- 机器学习:逻辑回归
- 机器学习 回归notes
- 机器学习---逻辑回归
- 机器学习之回归
- 机器学习-Logistic回归
- 机器学习---线性回归
- 【机器学习】逻辑回归
- servlet名称已经存在怎么办?
- linux 笔记(四)(帮助、压缩、关机与重启、其他(挂载))
- WS小世界网络的建立及基本特征的求法
- java---工厂设计模式
- shell简单笔记
- 机器学习-回归
- [iOS]Block技术中的weak-strong
- oracle11G遍历directory文件夹下所有文件
- 算法之最快到达终点问题。
- 正则表达式
- xgboost使用案例一
- 楼层跳跃
- 第六章 –– 常见类之Object和System
- 【今日头条2017内推笔试题】二维平面整数点集