程序博客网 > 重生之数据人生

斯坦福大学机器学习——广义线性模型

来源：互联网发布：重生之数据人生编辑：程序博客网时间：2024/06/04 23:37

同事提到了SPSS处理广义线性模型问题，今天就抽空对广义线性模型相关概念进行一番梳理。

1.指数分布族

指数分布族（Exponential Family）是这样一组分布：这些分布的概率密度函数可以表示成以下形式：

$f_{X}(x;\eta ) =h(x)exp(\eta T(x)-A(\eta))$

其中，y是随机变量；h(x)称为基础度量值（base measure）； $\eta$ 称为自然参数（natural parameter），也称为规范参数(canonical parameter)；T(x)称为充分统计量（sufficient statistic）； $A(\eta)$ 则称为对数分割函数（log partition function）。

指数分布族包括了除了柯西分布和t分布以外的其他基本分布。

下面将几种常用概率分布的化为指数分布族的形式：

伯努利分布（Bernoulli Distribution）

伯努利分布的概率函数为：

$f(x)=\begin{pmatrix} n \\ x \end{pmatrix}p^{x}(1-p)^{n-x}$ ， $x\in \{ 0,1,2,...,n\}$

因此，伯努利分布概率函数可以写成的指数分布函数的等价形式：

其中， $h(x)=\begin{pmatrix}n\\x \end{pmatrix}$ ， $\eta=ln(\frac{p}{1-p})$ ， $T(x)=x$ ， $A(\eta)=nln(1-p)$ $=A(\eta)=nln(1-p)$

正态分布（Normal Distrbution）

正态分布的概率函数为：

$f(x;\mu,\sigma)=\frac{1}{\sqrt{2\pi}\sigma}}e^{-\frac{(x-\mu)^{2}}{2\sigma^{2}}$

其中： $h(x)=\frac{1}{\sqrt{2\pi}\sigma^{2}}e^{-\frac{x^{2}}{2\sigma^{2}}}$ ， $\eta=\frac{\mu}{\sigma}$ ， $T(x)=\frac{x}{\sigma}$ ， $A(\eta)=\frac{\eta^{2}}{2}$

泊松分布（Poisson Distribution）

泊松分布的概率函数为：

$f(x)=\frac{\lambda^{x}e^{-\lambda}}{x!}$

其中： $h(x)=x!$ ， $\eta=ln\lambda$ ， $T(x)=x$ ， $A(\eta)=e^{\eta}$

指数分布（Exponential Distribution）

$f(x)=\lambda e^{-\lambda x}$ ，其中x>0

其中： $h(x)=1$ ， $\eta=-\lambda$ ， $T(x)=x$ ， $A(\eta)=-ln(-\eta)$

2.广义线性模型概念

如果目标变量Y服从指数分布族中某一特定分布，广义线性模型通过连接函数（link function），将重复统计量T(Y)的期望 $\mu$ 和随机量X的线性组合建立相应的函数关系。即

$E(T(Y)|X)=\mu=g^{-1}(\theta^{T}X)$

其中，E(T(Y)|X)表示在X已知的前提下，重复统计量T(Y)的期望值， $\theta$ 为线性组合的系数， $\theta^{T}X$ 为线性指示器（linear predictor），g(x)为连接函数。

3.广义线性模型构建

机器学习中广义线性模型的构建是为了通过训练样本来预测y的值。

1)判断在X给定的情况下，Y服从指数分布族中的何种分布；

2) $\eta=\theta^{T}X$

3) 通过连接函数建立X与充分统计量T(Y)之间的函数关系：

$E(T(Y)|X)=\mu=g^{-1}(\eta)=g^{-1}(\theta^{T}X)$

下面以常用的分布为例，构建广义线性模型：

伯努利分布

假设在X给定的情况下，Y服从伯努利分布，Y|X~B(n,p)，那么预测函数 $h_{\theta}(x)$ 的表达式推导如下：

$h_\theta(x)=E[T(y)|X;\theta]$

$=E[y|X;\theta]$ $=np$

$=n\frac{e^{\eta}}{1+e^{\eta}}$

$=\frac{n}{1+e^{-\eta}}$

$=\frac{n}{1+e^{-\theta^{T}x}}$

当n=1时，伯努利分布转化成二项分布，仅有｛0、1｝二值， $h_\theta(x)=\frac{1}{1+e^{\theta^{T}x}}$ ，为Logistic回归。

正态分布

假设在X给定的情况下，Y服从期望为方差为的正态分布，即 $Y|X\sim N(\mu,\sigma^{2})$ ，那么预测函数 $h_{\theta}(x)$ 的表达式推导如下：

那么预测函数 $h_{\theta}(x)$ 的表达式推导如下：

$h_\theta(x)=E[T(y)|X;\theta]$

$=\frac{1}{\sigma}E[y|X;\theta]$

$=\frac{\mu}{\sigma}$

$=\frac{\eta\sigma}{\sigma}$

$=\theta^{T}X$

这正是大家熟悉的一般线性回归方程。

泊松分布

假设在X给定的情况下，Y服从泊松分布，Y|X~P( $\lambda$ )

预测函数 $h_{\theta}(x)$ 的表达式推导如下：

$h_\theta(x)=E[T(y)|X;\theta]$

$=E[y|X;\theta]$

$=\lambda$

$=e^{\eta}$

$=e^{\theta^{T}x}$

指数分布

假设在X给定的情况下，Y服从指数分布，Y|X~e( $\lambda$ )

预测函数 $h_{\theta}(x)$ 的表达式推导如下：

$h_\theta(x)=E[T(y)|X;\theta]$

$=E[y|X;\theta]$

$=\frac{1}{\lambda}$

$=-\frac{1}{\eta}$
$=-\frac{1}{\theta^{T}x}$

0 1

重生之数据人生

重生之数据人生

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子五爷五台山五爷庙秦五爷洛凡刘五爷五爷庙旅游龙五爷五爷拌面五台山五爷范五爷五台山拜五爷为啥不能吃早餐甜妻深宠五爷放肆坏闯关东潘五爷五台山五爷庙真的好灵秦五爷依萍同人五台山五爷庙具体位置顾五爷叶小北五台山五爷庙附近宾馆首席夺爱五爷的新宠京五爷煎饼单通单五爷洛凡刘五宠妻狂魔坏透了五爷牲组词结婚当晚新娘惨遭4个畜牲奥运五环五环五环颜色五环原唱五环图片北京五环奥运会五环五环面包五环房价五环体育五环旗中国五环五环数学五环工程西安五环五环工厂店北五环房价