Statistical learning Week 3 线性回归

来源:互联网 发布:智能电视遥控器软件 编辑:程序博客网 时间:2024/06/08 07:12

2016-10-18

Week 3 线性回归


Outline

线性回归模型

  • 最小二乘 Least Squares Fit
  • 统计量 Mesures of Fit
  • 假设检验

回归模型中的其他注意事项

  • Qualitative Predictors 定性预测
  • Interaction Terms

Potential Fit Problems
线性回归与KNN回归

线性回归模型

Yi=β0+β1X1+...+βpXp+ϵ

其中,β0代表截距,βi代表变量Xi的斜率,ϵ代表均值为0的随机误差项。

可使用梯度下降或牛顿迭代法来求参数β

最小二乘估计 (least squares fit)

使用最小二乘法估计参数

MSE=1ni=1n(YiY^i)2=1ni=1n(Yiβ^0β^1X1...β^pXp)2

统计量(Mesures of Fit)

标准差(standard erro, SE)

Var(μ^)=SE(μ^)2=σ2n

其中 σ是变量Y的每个预测值yi的标准差。σ=1NNi=1(xiμ)2,μ为平均值。

残差平方和(residual sum of squares, RSS)

RSS=i=1n(yiy^i)2

总平方和(total sum of squares, TSS)测量y的总方差。

TSS=(yiy¯)2

判断线性回归的拟合质量通常使用两个相关的量:残差标准误(residual standard error, RSE)和 R2统计量。

RSE是对ϵ的标准偏差的估计。R2统计量采用比例的方式(被解释方差的比例)。

R2=TSSRSSTSS=1RSSTSS1EndingVarianceStartingVariance

R2统计量总是在0到1之间,0意味着模型没有解释任何variance,1意味着完美解释。

2016/10/19

假设检验 hypothesis test

在进行多元线性回归时,有一些重要问题需要解释:

  1. βj是否等于0?我们可以使用假设检验来回答。如果我们不能确定 β0j,那么Xj在预测中就不存在。

  2. 我们能确定至少有一个变量X是有用的吗?即β1=β2=βj=0?

βj=0?X是一个重要的变量吗?

我们使用 假设检验 来回答这个问题。
检验零假设:

H0:βj=0

对应的备择假设是

Ha:βj0

计算t-test,测量βj偏离0的标准偏差。其中

t=β^jSE(β^j)

n>30时,t近似正态分布。假设βj=0,计算任意观测值大于等于|t|的概率,就是 p值 (p value)。可以认为,当p很小时,预测变量和响应变量间存在关联。

如果t比较大(p比较小),我们就可以确定βj0,并且存在着关系。

整个回归公式解释所有情况吗?

假设

H0:0β1=β2=βj=0,Ha:0

使用F检测(F test)

F=(TSSRSS)/pRSS/(np1)

H0为真,则F统计量应该接近1,如果Ha为真,那么F大于1.

回归模型中的其他注意事项

定性预测变量

上面讲的都是定量(quantitative)的,也可使用回归处理分类问题。
定性问题

K近邻回归 KNN Regression

与KNN分类近似。根据给定的X选择K个最接近的点,用这些点的平均值来估计f(x0)

f(x)=1KxiNiyi

当真实关系为非线性时,KNN比线性回归更好。

这一章有点乱

0 0
原创粉丝点击