广义线性模型--Generalized Linear Models
来源:互联网 发布:mac剪切图片快捷键 编辑:程序博客网 时间:2024/05/16 10:29
监督学习问题:
1、线性回归模型:
适用于自变量X和因变量Y为线性关系
2、广义线性模型:
对于输入空间一个区域改变会影响所有其他区域的问题,解决为:把输入空间划分成若干个区域,然后对每个区域用不同的多项式函数拟合
是为了克服线性回归模型的缺点出现的,是线性回归模型的推广。
首先自变量可以是离散的,也可以是连续的。离散的可以是0-1变量,也可以是多种取值的变量。
与线性回归模型相比较,有以下推广:
根据不同的数据,可以自由选择不同的模型。大家比较熟悉的Logit模型就是使用Logit联接、随机误差项服从二项分布得到模型。
回归的线性模型
对于输入空间一个区域改变会影响所有其他区域的问题,解决为:把输入空间划分成若干个区域,然后对每个区域用不同的多项式函数拟合
Polynomial Curve Fitting
为神马不是差的绝对值?请看下面分解:
当我们寻找模型来拟合数据时,偏差是不可避免的存在的。对一个拟合良好的模型而言,这个偏差整体应该是符合正态分布的,
根据贝叶斯定理:P(h|D)=P(D|h)*P(h)/P(D)- 梯度减少的过程:
梯度下降法是按下面的流程进行的:
1)首先对x 赋值,这个值可以是随机的,也可以让x是一个全零的向量。
2)改变x 的值,使得f(x)按梯度下降的方向进行减少。
3)循环迭代步骤2,直到x的值变化到使得f(x) 在两次迭代之间的差值足够小,比如0.00000001,也就是说,直到两次迭代计算出来的f(x) 基本没有变化,则说明此时f(x) 已经达到局部最小值了。
- 靠近极小值时收敛速度减慢。
- 直线搜索时可能会产生一些问题。
- 可能会“之字形”地下降。
- 这个算法将会在很大的程度上被初始点的选择影响而陷入局部最小点
1、批量梯度下降的求解思路如下:
(1)将J(theta)对theta求偏导,得到每个theta对应的的梯度
(2)由于是要最小化风险函数,所以按每个参数theta的梯度负方向,来更新每个theta
(3)从上面公式可以注意到,它得到的是一个全局最优解,但是每迭代一步,都要用到训练集所有的数据,如果m很大,那么可想而知这种方法的迭代速度!!所以,这就引入了另外一种方法,随机梯度下降。
2、随机梯度下降的求解思路如下:
(1)上面的风险函数可以写成如下这种形式,损失函数对应的是训练集中每个样本的粒度,而上面批量梯度下降对应的是所有的训练样本:
(2)每个样本的损失函数,对theta求偏导得到对应梯度,来更新theta
(3)随机梯度下降是通过每个样本来迭代更新一次,如果样本量很大的情况(例如几十万),那么可能只用其中几万条或者几千条的样本,就已经将theta迭代到最优解了,对比上面的批量梯度下降,迭代一次需要用到十几万训练样本,一次迭代不可能最优,如果迭代10次的话就需要遍历训练样本10次。但是,SGD伴随的一个问题是噪音较BGD要多,使得SGD并不是每次迭代都向着整体最优化方向。
对于上面的linear regression问题,最优化问题对theta的分布是unimodal,即从图形上面看只有一个peak,所以梯度下降最终求得的是全局最优解。然而对于multimodal的问题,因为存在多个peak值,很有可能梯度下降的最终结果是局部最优。
- 增加训练数据集合
- 加入本书的"万金油" 贝叶斯方法
- 加入regularization。
Regularization
Ordinary Least Squares
fits a linear model with coefficients W to minimize the residual sum of squares between the observed responses in the dataset, and the responses predicted by the linear approximation. Mathematically it solves a problem of the form:
Ordinary Least Squares Complexity
Ridge Regression 岭回归
regression addresses some of the problems of Ordinary Least Squares by imposing a penalty on the size of coefficients. The ridge coefficients minimize a penalized residual sum of squares,
Here, is a complexity parameter that controls the amount of shrinkage: the larger the value of , the greater the amount of shrinkage and thus the coefficients become more robust to collinearity.
参数值和alpha的变化关系。
ax.set_color_cycle(['b','r','g','c','k','y','m'])
Bayesian Regression
贝叶斯视角下的模型选择
Logistic regression
Logistic回归与多重线性回归实际上有很多相同之处,最大的区别就在于它们的因变量不同,可以归于同一个家族,即广义线性模型(generalizedlinear model)。常规步骤
Regression问题的常规步骤为:
- 寻找h函数(即hypothesis);
- 构造J函数(损失函数);
- 想办法使得J函数最小并求得回归参数(θ)
构造损失函数J
Cost函数和J函数如下,它们是基于最大似然估计推导得到的。
下面详细说明推导的过程:
(1)式综合起来可以写成:
因为乘了一个负的系数-1/m,所以取J(θ)最小值时的θ为要求的最佳参数。
梯度下降法求的最小值
一个二维logistic regression的例子:
总结-One-vs-all方法框架:
对于每一个类 i 训练一个逻辑回归模型的分类器h(i)θ(x),并且预测 y = i时的概率;
对于一个新的输入变量x, 分别对每一个类进行预测,取概率最大的那个类作为分类结果:
- 广义线性模型--Generalized Linear Models
- 1.1 Generalized Linear Models 广义线性模型
- Generalized Linear Models广义线性模型
- 广义线性模型(Generalized Linear Models)
- 广义线性模型(Generalized Linear Models)
- Machine Learning—Generalized Linear Models广义线性模型
- 广义线性模型(Generalized Linear Models, GLM)
- 广义线性模型(Generalized Linear Models, GLM)
- 通用线性模型(GLMs,Generalized Linear Models)
- 广义线性模型Generalized Linear Model (GLM)
- 广义线性模型(Generalized Linear Model)
- 指数族和广义线性模型(The exponential family and Generalized Linear Models)
- 机器学习笔记1_3:广义线性模型(GLM, Generalized Linear Models)
- 指数分布族(The Exponential Family)与广义线性模型(GLM,Generalized Linear Models)
- scikit-learn学习笔记(三)Generalized Linear Models ( 广义线性模型 )
- 机器学习笔记——广义线性模型(Generalized Linear Models, GLM)
- 机器学习小组知识点39:广义线性模型(Generalized Linear Model)
- 4 Generalized linear models
- AsyncTask的介绍
- 人脸识别“Neural Aggregation Network for Video Face Recognition”
- Java和Android的学习开始
- iOS 8新特性之扩展:App Extensions
- 构建网站运行平台 - 搭建本地服务器(二)
- 广义线性模型--Generalized Linear Models
- ubuntu12.04下怎么安装QT4.0
- 说说JSON与JSONP
- jquery中append和after的区别
- PMBOK CMMI IPD Scrum 关系
- iOS-一步一步实现iOS微信自动抢红包(非越狱)
- iOS 开发中常用的第三方下载地址整理
- 从一个页面跳转到另一个页面的任何位置处
- TextWatcher详解,限制输入字符,实现文本框输入框同步,TextView与EditText同步显示