机器学习笔记——广义线性模型(Generalized Linear Models, GLM)
来源:互联网 发布:淘宝如何设置子账号 编辑:程序博客网 时间:2024/06/05 19:25
本文主要参考 Andrew NG 的 CSS229 机器学习课程的 Lecture notes 1 的 Part III 部分,简单介绍广义线性模型的基本概念,以及如何从广义线性模型出发,由高斯分布、伯努利分布和多项分布,分别得到我们熟悉的线性回归、logistic回归和softmax回归模型。
1 指数族分布(The Exponential Family)
指数族分布指的是一类分布,它们的概率密度函数都可以写成如下形式:
式子中各符号解释如下:
η 称为自然参数(natural parameter)。对于线性回归和logistic回归,η 是一个实数,且假设η=w⋅x ;对于softmax回归,η 是一个向量,且假设η(i)=wi⋅x ,后面会详细介绍。T(y) 是充分统计量(sufficient statistic),对于线性回归、logistic回归,有T(y)=y ;对于有k个类的softmax回归,T(y)=(1{y=1},1{y=2},...,1{y=k−1})T 。a(η) 是一个对数配分函数(log partition function),e−a(η) 在式子中起到归一化的作用,保证概率密度函数在随机变量y 上的积分为1 ,在后面的推导中,可以得到a(η) 由w 和x 表示的函数。一旦
T 、a 、b 确定,就可以确定一种分布,η 为参数。高斯分布、伯努利分布\和多项分布都属于指数族分布,下面介绍如何将它们写成指数族分布的形式,并确定其中记号的对应关系。
1.1 高斯分布
在线性回归为何选择平方损失函数的概率论解释中,就介绍过线性回归与高斯分布的关系,且推导过程中也发现线性回归最优解的求解与高斯分布的方差
由此可得,
1.2 伯努利分布
伯努利分布
由此可得,
1.3 多项分布
搜了一下多项分布的定义,多项分布是二项分布的推广,二点分布(伯努利分布)是二项分布
其中,
2 构造广义线性模型
一般地,考虑一个分类或者回归问题,我们希望将随机变量
1.
2. 已知一个
3. 自然参数
2.1 线性回归
目标变量
其中,第一行等式由假设2得出,第二行等式由高斯分布的期望可得,第三行等式由1.1中的推导可得,第四行等式由假设3得出。
2.2 logistic回归
目标变量
其中,第一行等式由假设2得出,第二行等式由伯努利的期望可得,第三行等式有1.2中的推导可得,第四行等式由假设3得出。
2.3 softmax回归
目标变量
其中,第一行等式由假设2得出,第二行等式由多项分布的期望可得,第三行等式由1.3中推导以及假设3得出。softmax回归也也可以用极大似然估计来估计参数,用梯度下降或者牛顿法求解最优解。
- 机器学习笔记——广义线性模型(Generalized Linear Models, GLM)
- 机器学习笔记1_3:广义线性模型(GLM, Generalized Linear Models)
- 广义线性模型(Generalized Linear Models, GLM)
- 广义线性模型(Generalized Linear Models, GLM)
- Machine Learning—Generalized Linear Models广义线性模型
- 广义线性模型Generalized Linear Model (GLM)
- 指数分布族(The Exponential Family)与广义线性模型(GLM,Generalized Linear Models)
- 广义线性模型--Generalized Linear Models
- 1.1 Generalized Linear Models 广义线性模型
- Generalized Linear Models广义线性模型
- 广义线性模型(Generalized Linear Models)
- 广义线性模型(Generalized Linear Models)
- scikit-learn学习笔记(三)Generalized Linear Models ( 广义线性模型 )
- Andrew Ng机器学习笔记(四)——GLM广义线性模型
- 机器学习笔记五:广义线性模型(GLM)
- 机器学习-广义线性模型GLM
- 从GLM广义线性模型到线性回归、二项式及多项式分类——机器学习笔记整理(一)
- 【机器学习-斯坦福】学习笔记4 ——牛顿方法;指数分布族; 广义线性模型(GLM)
- PHP基础教程-12 课后作业02
- Maximum GCD 读入
- 关于listview或者recyclerview里面的edittext数据保存问题
- windows安装gensim
- logstash(一):搭建syslog测试环境
- 机器学习笔记——广义线性模型(Generalized Linear Models, GLM)
- Java 用两个一维数组实现双色球彩票
- 练习 2-7 编写一个函数 invert(x, p, n),该函数返回对x 执行下列操作后的结 果值:将x中从第p位开始的n个(二进制)位求反(即,1 变成0,0 变成1),x的其余各位保持不变。
- 贪心,递归,动态规划,及分治算法之间的区别和联系(三)
- ACM常见错误
- Request对象的主要方法
- 拓扑
- Java内部类的分类
- 编程实现统计某年某月份的天数。 例如:输入:2017.7 输出:31天