第十一章 一元线性回归

来源:互联网 发布:centos 6.5 计划任务 编辑:程序博客网 时间:2024/05/29 19:17

主要分析数值型自变量与数值型自变量之间的关系。
从变量个数上看,可分为简单相关与简单回归分析和多元相关与多元回归分析;从变量之间的关系形态上看,有线性相关与线性回归分析和非线性相关与非线性回归分析。

1 变量间关系的度量

1 变量间的关系

变量之间的关系可分为函数关系和相关关系
函数关系:一 一对应的确定关系
相关关系:变量之间存在的不确定的数量关系

2 相关关系的描述与测度

假设:(1)两个变量之间是线性关系 (2)两个变量是随机变量
步骤:(1)绘制散点图来判断变量之间的关系形态
(2)如果是线性关系,则利用相关系数来测度两个变量之间的关系强度
(3)对相关系数进行显著性检验,以判断样本所反映的关系能否用来代表两个变量总体上的关系
样本相关系数计算公式:
r=nxyxynx 2 (x) 2  − − − − − − − − − − − − −   ny 2 (y) 2  − − − − − − − − − − − − −     
上述相关系数也称为线性相关系数,或Pearson相关系数

3 相关关系的显著性检验

一般情况下,总体相关系数ρ 是未知的,通常是根据样本相关系数r 作为ρ 的近似估计值。但r 是根据样本数据计算得到到,受到抽样波动的影响。能否根据样本系数说明总体的相关程度?就需考察样本相关系数的可靠性,即显著性检验。
当样本数据来自正态总体时,随着n 的增大,r 的抽样分布趋于正态分布,尤其当总体相关系数ρ 很小或接近0时,趋于正态分布的趋势非常明显。而当ρ 远离0时,除非n 非常大,否则r 的抽样分布呈现一定的偏离。因此对r 的显著性检验采用费希尔提出的t 分布检验,不仅可以用于小样本,也可以用于大样本。
检验的步骤为:
第一步:提出假设
H 0 :ρ=0;ρ0 
第二步:计算检验的统计量
t=|r|n21r 2   − − − − − −   t(n2) 
第三布:进行决策。根据给出的显著性水平α 和自由度计算出临界值。若|t|>t α/2  ,则拒绝原假设H 0  ,表明总体的两个变量间存在显著的线性关系

2 一元线性回归

1 一元线性回归模型

回归模型:描述因变量y如何依赖于自变量x和误差项ε的方程
一元线性回归模型: y=β 0 +β 1 x+ε 
回归方程:描述因变量y的期望值如何依赖于自变量x的方程
一元线性回归方程: E(y)=β 0 +β 1 x 
估计的回归方程:用样本统计量代替回归方程中的未知参数
对于一元线性回归,估计的回归方程形式为:
y ^ =β 0  ^ +β 1  ^ x 

2 参数的最小二乘估计

最小二乘法:也称最小平方法,真实值与观察值的离差平方和最小,即使得(y i y i  ^ ) 2 =(y i β 0  ^ β 1  ^ x i ) 2  最小。

3 回归直线的拟合优度

回归直线与各观测点的接近程度称为回归直线对数据的拟合优度。
a.判定系数
因变量y 的取值是不同的,y 取值的这种波动称为变差。变差的产生来自两个方面:一是由自变量x 的取值不同造成的;二是除x 以外的其他因素(非线性因素、测量误差等)的影响。
对于一个具体的观测值,变差的大小可以用用实际观测值y 与其均值y ¯  之差yy ¯  表示。而n次观察值的总变差可由这些离差的平方和表示,称为总平方和,记为SST,即
SST=(y i y ¯ ) 2  
由于yy ¯ =(yy ^ )+(y ^ y ¯ ) ,两边平方得:
(y i y ¯ ) 2 =(y i  ^ y ¯ ) 2 +(y i y ^ ) 2  
等式右边第一部分可以由回归直线来解释,因此称为回归平方和。
等式右边第二部分是除了线性影响外的其他因素对y 变差的作用,不能由回归直线来解释,称为残差平方和或误差平方和。
三者关系为:总平方和(SST)=回归平方和(SSR)+残差平方和(SSE)
回归平方和占总平方和的比例称为判定系数,记为R²,计算公式为
R 2 =SSRSST =(y i  ^ y ¯ ) 2 (y i y ¯ ) 2  =1(y i y ^ ) 2 (y i y ¯ ) 2   
判定系数测度了回归直线对观测数据的拟合程度
在一元线性回归中,相关系数实际上是判定系数的平方根。
b. 估计标准误差
估计标准误差是度量个实际观测点在直线周围散布状况的一个统计量,它是均方残差(MSE)的平方根,计算公式为:
s e =(y i y ^ ) 2 n2  − − − − − − − − − −   =SSEn2 =MSE − − − − −    
估计标准误差是对误差项ε 的标准差σ 的估计,是y 随机波动大小的一个估计量。从另一个角度说明了回归直线的拟合优度。

4 显著性检验

当建立了估计方程后,还不能马上进行估计或预测,因为该估计方程是根据样本数据得出,它是否真实地反映了变量x y 之间的关系,还需要验证。
回归分析的显著性检验主要包括两个方面:一是线性关系的检验;二是回归系数的检验。
* a 线性关系的检验*
线性关系检验是检验自变量x 和因变量y 之间的线性关系是否显著或是否能用线性模型表示。步骤为:
(1) 提出假设
H 0 :β 1 =0  两个变量之间的线性关系不显著
(2) 构造统计量
该统计量的构造以回归平方和(SSR)和残差平方和(SSE)为基础,两者分别除以其相应的自由度。
F=SSR/1SSE/(n2) =MSRMSE F(1,2) 
(3) 作出决策
F>F α  ,拒绝H 0  ,表明两个变量之间的线性关系显著;
F<F α  ,不拒绝H 0  ,没有证据表明两个变量之间的线性关系显著;
b 回归系数的检验
检验自变量对因变量的影响是否显著,即检验回归系数β 1  是否等于0。
统计证明:β 1  ^  服从正态分布,期望为E(β 1  ^ )=β 1  ,标准差为
σ β 1  ^  =σx 2 i 1n (x i ) 2  − − − − − − − − − − − − − − −     
式中σ 是误差项ε 的标准差,由于σ 未知,可用其估计量s e  代替。
(1) 提出假设
H 0 :β 1 =0H 1 :β 1 0 
(2) 构造统计量
t=β 1  ^ β 1 s β 1  ^   =β 1  ^ s β 1  ^    
(3) 作出决策
|t|>t α/2  ,拒绝H 0  

3 利用回归方程进行预测

回归模型经过各种检验后并表明符合预定的要求后,就可以来预测因变量。

1 点估计

利用估计的回归方程,对于x 的一个特定值x 0  ,求出y 的一个估计值就是点估计。点估计可分为两种:一是平均值的点估计;二是个别值的点估计。
在点估计条件下,对于同一个x 0  ,平均值的点估计和个别值的点估计是一样的,但在区间估计中则有所不同。

2 区间估计

区间估计也有两种类型:一是置信区间估计,它是对x 的一个特定值x 0  ,求出y的平均值的估计区间,这一区间称为置信区间;二是预测区间估计,它是对x 的一个给定值x 0  ,求出y 的一个个别值的估计区间,这一区间称为预测区间。
a. y 的平均值的置信区间估计
s y 0  ^   表示y 0  ^  标准差的估计量
1α 置信水平下的置信区间为:y 0  ^ ±t α/2 s y 0  ^   
t 分布的自由度为n2 
b. y 的个别值的预测区间估计
与上相同,只不过是将y 0  ^  标准差的估计量
换成了y 的一个个别估计值y 0  的标准差的估计量

4 残差分析

1 残差与残差图

残差:因变量的预测值y i  与估计求出的预测值y i  ^  之差,用e 表示

2 标准化残差

标准化残差是残差除以它的标准差得到的数值。
z e i  =e i s e  =y i y i  ^ s e   
s e  是残差的标准差估计

0 0
原创粉丝点击