ARA-week2

来源：互联网发布：腾讯程序员待遇编辑：程序博客网时间：2024/05/18 02:51

Linear Regression 线性回归
最小二乘法得到的β0和β1的估计：
β^1=covˆ(x,y)Varˆ(x)，β^0=Y¯¯¯−β^1X¯¯¯
β^1的计算式：β^1=∑xiyi−∑xi∑yin∑x2i−(∑xi)2n
全都由样本数据构成，便于计算。

得到的回归方程可以写成：y^=β^0+β^1x
也可以写成这种形式：y^=a+b(x−X¯¯¯)

对于散点(x,y)而言，第一个变量x是依赖变量（dependent variable），第二个变量y是独立变量（independent variable）。
Error Sum of Squares: SSE=∑i=1n(yi−y^i)2

homoscedasticity
即对于每一个x而言，y的方差是一样的。即σ2y|xi=σ2y|xj=σ2
对于σ2的估计如下：
s2y|x=1n−2∑i=1n(yi−y^i)2=n−1n−2(s2y−β^2is2x)(∗)
这里的分母是n−2是因为计算β^0和β^1时用去了两个自由度。
若(∗)中的β^i=0，表明给定x情况下y的方差，和y的方差一致（有一个因子n−1n−2的差异），x不能帮助减小y的方差。即x无法增加y的数据使用者对数据的准确度信心。
由(∗)式，标准误SEE(Standard Error of Estimate)即为sy|x。
这里s2x=∑i=1n(xi−x^i)2n−1，s2y=∑i=1n(yi−y^i)2n−1

对于任意给定的x，假定y服从正态分布，我们可以对β0和β1进行假设检验和建立置信区间。这里：
β^0∼N(β0,σ2(1n+X¯2(n−1)s2x))(0)
β^1∼N(β1,σ2(n−1)s2x)(1)
因为我们没有σ2的值，因此用(∗)中的s2y|x替代。使用自由度为n−2的t分布。

1.首先考虑β1
假定
零假设：H0:β1=0
备择假设：Ha:β1≠0
根据(1)式计算出t统计量：t=β^1−β(0)1sy|xsxn−1√
如果|t|>t1−α2(n−2)，在α的程度拒绝H0（此时p<0.001）
这里的零假设是指假定斜率为0，即x和y之间不存在线性关系。若拒绝0假设，则表明x为预测y提供了重要的信息，表明线性回归得到的模型比预测y的naive model（即对所有的x用均值Y¯¯¯来估计）要好得多，但这也可能存在更好的模型（例如非线性模型，可能对数据拟合的更好）。
同时，如果零假设没有被拒绝可能表明：1.x对于预测y没有帮助。2.x和y之间的真实模型不是线性的。

置信区间为：β^1−t1−α2[sy|xsxn−1√]≤β1≤β^1+t1−α2[sy|xsxn−1√]

2.再考虑β0
0假设：H0:β0=β(0)0
根据(0)式计算t统计量：t=β^0−β(0)0sy|x1n+X¯2(n−1)s2x√
t∼t(n−2)

0 0