数据分析---线性回归

来源:互联网 发布:java接口使用 编辑:程序博客网 时间:2024/05/03 19:33

        经常说线性模型,线性回归模型,广义线性模型,广义线性混合模型.......之类的词好几个,搞得不好就容易混淆了。下面一起来复习下。


1、线性回归模型(也称经典线性模型classic linear model或者一般线性模型General linear model)

适用于自变量X和因变量Y为线性关系,具体来说,画出散点图可以用一条直线来近似拟合。

模型可以表达为:{  y=XβX+ε  εMVN(0,σ2In)其中ε是随机误差,MVN为多元正态分布。

      模型有几个基本假设:自变量之间无多重共线性;随机误差随从0均值,同方差的正态分布;随机误差项之间无相关关系。

      参数使用最小二乘法进行估计。

      假设检验有两个,一个是参数的检验,使用t检验;另一个是整个模型的检验,使用F检验,在构造F统计量时,需要把模型的平方和进行分解,会使用到方差分析。

      此外,判定系数R2和修正判定系数R¯2都需要使用到方差分析的结果。

2、线性混合模型(Linear Mixed Model)

线性模型中加入随机效应项。

模型可以表达为:      Y=βX+Zγ+ε  γMVN(0,G)εMVN(0,R),其中Y,Xβ的意义和线性回归的意义相同,Xβ是固定效应部分,Zγ是随机效应部分,GR都是协方差矩阵。

同时假定Cov(G,R)=0,即GR之间无相关关系。

为了使用上的麻烦,统计学家提供了几种协方差的形式供大家使用。

3、广义线性模型(Generalized Linear Model即GLM)

     广义线性模型,是为了克服线性回归模型的缺点出现的,是线性回归模型的推广。

     首先自变量可以是离散的,也可以是连续的。离散的可以是0-1变量,也可以是多种取值的变量。

     与线性回归模型相比较,有以下推广:

(1)随机误差项不一定服从正态分布,可以服从二项、泊松、负二项、正态、伽马、逆高斯等分布,这些分布被统称为指数分布族。

(2)引入联接函数g()。因变量和自变量通过联接函数产生影响,即Y=g(Xβ),联接函数满足单调,可导。常用的联接函数有恒等(Y=βX),对数(Y=ln(βX)),幂函数(Y=(βX)k),平方根(Y=βX),logitln(Y1Y)=βX)等。

根据不同的数据,可以自由选择不同的模型。大家比较熟悉的Logit模型就是使用Logit联接、随机误差项服从二项分布得到模型。


4、广义线性混合模型(Generalized Linear Mixed Model即GLMM)

  这个也好理解,就是在GLM的基础上,加了随机效应项。



0 0
原创粉丝点击