从线性模型到广义线性模型(一):模型假设篇
来源:互联网 发布:软件盒子下载 编辑:程序博客网 时间:2024/04/27 20:31
本文系转载,原文链接:http://cos.name/2011/01/how-does-glm-generalize-lm-assumption/
在统计学里,对特定变量之间的关系进行建模、分析最常用的手段之一就是回归分析。回归分析的输出变量通常记做
1.普通线性模型的简单回顾
普通线性模型(ordinary linear model)可以用下式表示:
这里
普通线性模型的假设主要有以下几点:
1.响应变量
2.预测量
3.研究对象:如前所述普通线性模型的输出项是随机变量
4.联接方式:在上面三点假设下,对(1.1)式两边取数学期望,可得
从 (1.2)式可见,在普通线性模型里,响应变量的均值
2.广义线性模型的简单介绍
广义线性模型(generalized linear model)正是在普通线性模型的基础上,将上述四点模型假设进行推广而得出的应用范围更广,更具实用性的回归模型。
1.响应变量的分布推广至指数分散族(exponential dispersion family):比如正态分布、泊松分布、二项分布、负二项分布、伽玛分布、逆高斯分布。exponential dispersion family的详细定义限于篇幅这里不做详细介绍。
2.预测量
3.研究对象:广义线性模型的主要研究对象仍然是响应变量的均值
4.联接方式:广义线性模型里采用的联连函数(link function)理论上可以是任意的,而不再局限于
3.简单的例子
考虑这样一个简单的退保案例:一个保险产品一共卖出12份保单(当然了这在现实中不可能,这里仅为示例),在保单期限内一共有6人退保。那么采用这12个投保人的特征数据如收入、职业、年龄等做为预测变量对退保/退保率进行回归分析时,普通线性模型不再适用,因为这里退保这一事件不再服从正态分布,而是二项分布(当然了如果观测值的个数足够大,比如大于30,正态分布是一个很好的近似)。此时就可采用广义线性模型(目标分布采用二项分布)进行建模。
4.补充:指数分布族的简介
指数分布族(exponential dispersion family)实质上是对一类具有以下形式的概率密度函数或具有此类密度函数的分布的总括:
这里
一般情况下参数
正态分布
泊松分布
二项分布
负二项分布
伽玛分布
- 从线性模型到广义线性模型(一):模型假设篇
- 从线性模型到广义线性模型(1)——模型假设篇
- 从广义线性模型到逻辑回归
- 从广义线性模型到逻辑回归
- 从广义线性模型到逻辑回归
- 线性模型(一)--广义线性模型(GLM)简介
- 从GLM广义线性模型到线性回归、二项式及多项式分类——机器学习笔记整理(一)
- 广义线性模型(三)
- 广义线性模型(GLM)
- 广义线性模型之线性回归(一)
- 广义线性模型
- 广义线性模型1
- 广义线性模型2
- 广义线性模型
- 广义的线性模型
- 广义线性模型3
- 广义线性模型
- 广义线性模型
- mac修改hostname
- OpenStack部署之删除ubuntu主题,原版OpenStack显示
- SET_TABLE_PREFS
- 逗号分隔,保留两位小数(计算工具中用到的)
- 192.168.1.1/24 什么含义
- 从线性模型到广义线性模型(一):模型假设篇
- 正则表达式的引擎
- Java字符串加密处理
- U3D学习笔记(1)
- 2. jQuery 语法
- iOS中keyChain 实现UUID 设备唯一标识符碰到的问题
- ThreadLocalTest
- iOS APNs问题
- 用C#加载C++编写的win32dll