统计学8

来源:互联网 发布:linux安装ipython3 编辑:程序博客网 时间:2024/05/29 15:01

线性回归中的平方误差
假设坐标平面内有n点,想找到一条直线,最小化这些点到该直线的平方误差。我们需要求出m和b的值。
这里写图片描述
定义下误差的概念
这里写图片描述
e1=y1(mx1+b)
.
.
en=yn(mxn+b)

平方误差
SE=e21+...+e2n

线性回归公式的推导
SE=e21+...+e2n
=(y1(mx1+b))2+...+(yn(mxn+b))2
=y212y1(mx1+b)+(mx1+b)2+…+
=y212y1mx12y1b+m2x21+2mx1b+b2+…+
 y2n2ynmxn2ynb+m2x2n+2mxnb+b2(对应项相加)
=(y21+...+y2n)2m(x1y1+...+xnyn)2b(y1+...+yn)+m2(x21+...+x2n)+2mb(x1+...+xn)+nb2

令y的平方的均值y21+...+y2nn=y2¯y21+...+y2n=ny2¯。其它也类似处理。

SE=ny2¯2mnxy¯2bny¯+m2nx2¯+2mbnx¯+nb2
最小化SE,得到m和b的值。
首先对m求偏导,令SEm=0
SEm=2nxy¯+2mnx2¯+2bnx¯=0(提出2n)
对b求偏导,令SEb=0
SEb=2ny¯+2mnx¯+2nb=0(提出2n)

{xy¯+mx2¯+bx¯=0y¯+mx¯+b=0

下面将两者都化成mx+b形式,
{mx2¯+bx¯=xy¯mx¯+b=y¯

满足这两个方程的m和b就是最佳拟合直线的m和b。从第二个方程可以看出点(x¯,y¯)落在直线上。改写第一个方程,mx2¯x¯+b=xy¯x¯,得到拟合直线上的另一个点(x2¯x¯,xy¯x¯)

我们可以解方程组以得到m和b,也可以通过直线上的两个点求出直线y=mx+b。
{mx2¯x¯+b=xy¯x¯mx¯+b=y¯
得到m=y¯xy¯x¯x¯x2¯x¯=x¯y¯xy¯(x¯)2x2¯,b=y¯mx¯

线性回归例题
假设有不共线三点(1,2)(2,1)(4,3),求最佳拟合直线。
x¯=(1+2+4)/3=7/3,y¯=(2+1+3)/3=2,xy¯=(2+2+12)/3=16/3,x2¯=(1+4+16)/3=7。
m=7/3216/3(7/3)27=3/7,b=y¯mx¯=2-3/7*7/3=1
回归直线是y=mx+b=3/7x+1

决定系数R2
一种对直线拟合程度的估计,表示y的波动程度有多少百分比能被x的波动程度所描述。

y的总波动程度为
(y1y¯)2+(y2y¯)2+...+(yny¯)2=SEy¯,又称为离y均值的平方误差。方差是y的总波动的均值。

每个点到回归直线的平方误差为
SE=(y1(mx1+b))2+...+(yn(mxn+b))2

SESEy¯表示y的总波动中有多少没被回归线所描述,或者说没有被x的波动所描述。
1SESEy¯表示y的波动程度有多少百分比能被x的波动程度所描述,称作决定系数r2
如果直线的平方误差SE很小,意味着直线拟合的很好,r2会接近1,也就是说y的波动很多都被x的波动描述了。

从下图可以看出,比起y的均值线(绿色),每个点和回归线(紫色)接近的更好。SEy¯理解为每个y到绿线的距离平方和,SE理解为每个y到紫线的距离平方和。
这里写图片描述

协方差和回归线
两个随机变量之间的协方差为
Cov(X,Y)=E[(XE(X))(YE(Y))],两个随机变量离各自均值距离之积的期望值,也就是表示两变量多大程度上一同变化。
比如,从X和Y中抽取一个样本后,X高于其期望值,Y低于其期望值,(X-E(X))(Y-E(Y))会得到负数。如果Cov(X,Y)为负,说明两变量一个上升,另一个就下降。如果两者同时上升或者同时下降,那么就是正协方差,同步的程度确定协方差的大小。

将协方差的定义,同最小二乘回归联系起来。协方差这个概念很大程度就是从回归中来的。
Cov(X,Y)=E[(X-E(X))(Y-E(Y))]
=E[XY-XE(Y)-E(X)Y+E(X)E(Y)]
=E(XY)-E[XE(Y)]-E[E(X)Y]+E(X)E(Y)
=E(XY)-E(X)E(Y)-E(X)E(Y)+E(X)E(Y)
=E(XY)-E(X)E(Y)
期望值可以看作已知的常数,期望值的期望就是该期望值,即E(E(X))=E(X)。

如果知道这些变量的概率分布或者密度函数,我们就能算出期望值来。但是如果只有样本,则只能用样本估计。E(XY)xy¯,E(X)x¯,E(Y)y¯
Cov(X,Y)=xy¯x¯y¯。这是回归直线的斜率m的分子部分。
m=xy¯x¯y¯x2¯(x¯)2。而分母部分是Cov(X,X)
Cov(X,X)=E[(X-E(X))(X-E(X))]=Var(X),随机变量同自身的协方差等于该随机变量的方差。

因此,回归直线的斜率可以考虑为m=Cov(X,Y)Var(X)

0 0
原创粉丝点击