ARA-week2

来源:互联网 发布:腾讯程序员待遇 编辑:程序博客网 时间:2024/05/18 02:51

Linear Regression 线性回归
最小二乘法得到的β0β1的估计:
β^1=covˆ(x,y)Varˆ(x)β^0=Y¯¯¯β^1X¯¯¯
β^1的计算式:β^1=xiyixiyinx2i(xi)2n
全都由样本数据构成,便于计算。

得到的回归方程可以写成:y^=β^0+β^1x
也可以写成这种形式:y^=a+b(xX¯¯¯)

对于散点(x,y)而言,第一个变量x是依赖变量(dependent variable),第二个变量y是独立变量(independent variable)。
Error Sum of Squares: SSE=i=1n(yiy^i)2

homoscedasticity
即对于每一个x而言,y的方差是一样的。即σ2y|xi=σ2y|xj=σ2
对于σ2的估计如下:
s2y|x=1n2i=1n(yiy^i)2=n1n2(s2yβ^2is2x)()
这里的分母是n2是因为计算β^0β^1时用去了两个自由度。
()中的β^i=0,表明给定x情况下y的方差,和y的方差一致(有一个因子n1n2的差异),x不能帮助减小y的方差。即x无法增加y的数据使用者对数据的准确度信心。
()式,标准误SEE(Standard Error of Estimate)即为sy|x
这里s2x=i=1n(xix^i)2n1s2y=i=1n(yiy^i)2n1

对于任意给定的x,假定y服从正态分布,我们可以对β0β1进行假设检验和建立置信区间。这里:
β^0N(β0,σ2(1n+X¯2(n1)s2x))(0)
β^1N(β1,σ2(n1)s2x)(1)
因为我们没有σ2的值,因此用()中的s2y|x替代。使用自由度为n2t分布。

1.首先考虑β1
假定
零假设:H0:β1=0
备择假设:Ha:β10
根据(1)式计算出t统计量:t=β^1β(0)1sy|xsxn1
如果|t|>t1α2(n2),在α的程度拒绝H0(此时p<0.001
这里的零假设是指假定斜率为0,即xy之间不存在线性关系。若拒绝0假设,则表明x为预测y提供了重要的信息,表明线性回归得到的模型比预测y的naive model(即对所有的x用均值Y¯¯¯来估计)要好得多,但这也可能存在更好的模型(例如非线性模型,可能对数据拟合的更好)。
同时,如果零假设没有被拒绝可能表明:1.x对于预测y没有帮助。2.xy之间的真实模型不是线性的。

置信区间为:β^1t1α2[sy|xsxn1]β1β^1+t1α2[sy|xsxn1]

2.再考虑β0
0假设:H0:β0=β(0)0
根据(0)式计算t统计量:t=β^0β(0)0sy|x1n+X¯2(n1)s2x
tt(n2)

0 0
原创粉丝点击