线性回归要求因变量服从正态分布

来源:互联网 发布:淘宝客服售后用语 编辑:程序博客网 时间:2024/04/29 06:54

对于线性回归模型,当因变量服从正态分布,误差项满足高斯–马尔科夫条件(零均值、等方差、不相关)时,回归参数的最小二乘估计是一致最小方差无偏估计.

解释一:

我们假设线性回归的噪声服从均值为0的正态分布。
t为真时值,y为观测值,e为噪声

当噪声符合正态分布N(0,delta^2)时,因变量则符合正态分布N(ax(i)+b,delta^2),其中预测函数y=ax(i)+b。这个结论可以由正态分布的概率密度函数得到。也就是说当噪声符合正态分布时,其因变量必然也符合正态分布。
在用线性回归模型拟合数据之前,首先要求数据应符合或近似符合正态分布,否则得到的拟合函数不正确。
若本身样本不符合正态分布或不近似服从正态分布,则要采用其他的拟合方法,比如对于服从二项式分布的样本数据,可以采用logistics线性回归。

解释二:

线性回归是广义线性模型,它的函数指数簇就是高斯分布。
p(y;η) = b(y)exp(η T T(y) − a(η));

假设方差为1,以下为高斯分布推导为广义函数指数簇:
这里写图片描述

η = µT(y) = ya(η) = µ^2 /2= η^2 /2b(y) = (1/ √ 2π)exp(−y^2 /2).

目标函数h(x) = E(y|x) = µ = η = θ T x

所以线性回归的假设前提是噪声服从正态分布,即因变量服从正态分布。

0 0