Stanford Online-统计学习-ISLR-Ch3-Linear Regression

来源:互联网 发布:化为简化阶梯型矩阵 编辑:程序博客网 时间:2021/10/19 07:41

1. 线性模型

简单粗暴,直接上模型:

Y=β0+β1X+ϵ

这是对“世界上所有数据“的假想模型,即我们假设“世界上所有数据“是从这个模型中产生的。虽然我们也不清楚这个假设对不对,但是就是这样假设了,看看结果好不好再决定对不对。

但是我们得不到“世界上所有的数据“,我们只有“训练数据集“,所以我们可以得到的模型是这样的:

Ŷ =β̂ 0+β̂ 1X+ϵ

“hat“表示这个变量是estimated的,不是real的,也就是说我们对上面的“假设“在进行了一次假设。效果好不好得看结果才知道,这里就这么粗暴地假设了。

2. 损失函数

模型中未知的是β̂ ,将通过损失函数来得道。直接上损失函数,来评估这个estimated的模型的好坏,从而得到好的β̂ 

定义“残差“ (residual):ei=yiyi^

定义“残差和“ (Residual Sum of Squares):RSS=e21+e22+...+e2n

我们的目的,让“残差和“最小。于是通过“求导等于0“来求解极小值点。因为只有β̂ ,所以“求导等于0“可以把相应的β̂ 求解出来。

3. 参数“好坏“评估

下面用“统计学“中的方法来评估一下这个模型,看看参数对不对,好不好。

3.1 Standard Error

β0β1的 Standard Error 定义如下:

SE(β̂ 1)2=Var2(ϵ)ni=1(xix)2

SE(β̂ 0)2=Var2(ϵ)1n+x2ni=1(xix)2

以上就是定义,不用去纠结为什么。

那么来看看这个SE究竟想说明什么:
1. SE越小说明参数估计越好
2. Var(ϵ)是由于采样造成的噪声,是模型估计中不可避免的误差。如果采样过程中的误差太大,预测出来的模型自然不会太好,即SE会较大
3. (xix)2很小,就是说,训练集中的数据比较密集地聚拢在一处,这样子预测出来的模型自然不好啊。所以这个告诉我们,训练数据要尽量分散。见下图对比:

3.2 Confident Interval 置信区间

Standard Error可以用来计算“置信区间“,置信度为95%,计算方式如下:

[β̂ 11.96SE(β̂ 1),   β̂ 1+1.96SE(β̂ 1)]

置信度为95%的置信区间的意思是:该区间有95%的概率会包含真实模型参数的β1

3.3 Hypothesis Testing 假设检验

所谓“假设检验“就是先给定一个假设,然后希望能够推翻这个假设。称这个希望被推翻的假设为“零假设(null hypothesis) H0“,该假设对立面为HA

紧接着上面的一元线性模型:Ŷ =β̂ 0+β̂ 1X+ϵ,令:

H0:X和Y之间没有关系,即β1=0
HA:X和Y之间有关系,即β10

接下来就要用一些“统计学“的方法来推翻这个零假设H0,证明X和Y之间有关系。

3.3.1 T-statistic T值

Standard Error被用来计算T值,于是T值定义如下:

t=β̂ 1β1SE(β̂ 1)

因为要用反证法推翻H0,所以现在假设H0成立,即β1=0,所以T值变成了这样:
t=β̂ 10SE(β̂ 1)

3.3.2 p-value p值

p值的定义为:当H0成立时,观测到任何|t|的值的概率

3.3.3 推翻“零假设H0

大“T值“,小“P值“,H0被推翻,β10,X和Y有关;
小“T值“,大“P值“,H0被认可,β1=0,X和Y无关;

如下的例子:

3.3.4 X和Y之间的关联性有多强

既然推翻了零假设,证明了X和Y之间是有联系的,那么这种联系有多强呢?我们用R2来反映这种关联性。

R2=TSSRSSTSS=1RSSTSS

RSS=i=1n(yiŷ i)2

TSS=i=1n(yiy)2

在一元线性模型中,不难证明,R2=r2,其中r是X和Y之间的correlation:

r=ni=1(xix)(yiy)ni=1(xix)2ni=1(yiy)2

于是,R2越大,一元线性模型中X和Y的关联性就越强。

阅读全文
0 0