伍德里奇计量经济学导论之计算机操作题的R语言实现（一些重要专题）

来源：互联网发布：淘宝店需要办营业执照编辑：程序博客网时间：2024/05/29 08:36

引言

本章内容介绍了多元线性回归一些好玩且实用的专题：

改变自变量（因变量（对数自变量）当度量单位对因变量（自变量）、系数、t值、F值等的影响
自变量和因变量标准化以后B系数的解释
对数-水平模型下，B系数当精确解读以及二次模型来表明边际递增或递减当情况
调整的R方的好处以及缺点（这个倒是第一次见识）
构造估计值和预测值的一个置信区间
残差分析

本文代码和整理好的数据见这里
此篇博客开始，每一题上方都会来个小标题，表明该题涉及到当重要技术细节，以供参考。

C6.1 二次项模型的加入以及解释

data_kielmc<-read.csv('/home/wangjianlong/files/programs/college_life/econometrics/excel_data_1/kielmc.csv',header = T)lm_kielmc<-lm(log(Price)~log(dist),data=data_kielmc)#预期 垃圾焚化炉离住房越远，价格越高，系数符号应为正。summary(lm_kielmc)#log(Price)=8.25750+0.31722 log(dist)#距离相隔每增加百分之一，平均来说，价格变每上升0.31%#(2)lm_kielmc_1<-lm(log(Price)~log(dist)+log(intst)+log(area)+log(land)+rooms+baths+age,data=data_kielmc)summary(lm_kielmc_1)## 系数从0.31722减小到0.0281887 ，因为增加了更多了更多变量来解释价格当变化，焚化炉距离远近对价格影响效应减弱。#(3)lm_kielmc_2<-lm(log(Price)~log(dist)+log(intst)+log(area)+log(land)+rooms+baths+age+I((log(intst))^2),data=data_kielmc)summary(lm_kielmc_2)#log(Price)=-3.7907630+0.1897589log(dist)+ 1.9024997log(intst) -0.1128430I((log(intst))^2)...#加入log(intst)的二次项以后log(intst)一次项系数变得统计显著了，二次项系数也是统计显著的。#在此估计模型下，住房价格与离告诉公路当距离呈现倒U型关系，在刚开始时距离越大价格越大，但是到达#一个临界点以后，这个距离是-1.9024997/(2*-0.1128430)=8.429853#从实际生活中也可以解释，住房在刚开始离得远时，远离告诉公路带来当噪声，但是远离太多时，交通就不方便了，因此价格就下降了#(4)lm_kielmc_3<-lm(log(Price)~log(dist)+log(intst)+log(area)+log(land)+rooms+baths+age+I((log(intst))^2)+I((log(dist))^2),data=data_kielmc)summary(lm_kielmc_3)##加入以后log(dist)以及(log(dist)）^2都是不显著的，并没有使模型有更好 解释效果，所以不加入为好。

C6.2二次项系数对因变量的解释

data_wage1<-read.csv('/home/wangjianlong/files/programs/college_life/econometrics/excel_data_1/wage1.csv',header = T)#(1)lm_wage1<-lm(log(wage)~educ+exper+I(exper^2),data=data_wage1)summary(lm_wage1)#log(wage)=0.1279975+0.0903658educ+0.0410089 exper-0.0007136I(exper^2)#Adjusted R-squared:  0.2963 n=526#(2)#在给定1%的显著性水平下，exper^2系数P值为1.42e-09，小于显著性水平，因此认为该项变量显著#(3)当在第四年时(0.0410089-2*0.0007136*4)*1*100# 第五年的近似回报为3.53%#当在第19年时，(0.0410089-2*0.0007136*19)*1*100#回报下降到1.38921%#(4)#求解 0.0410089-2*0.0007136*n=00.0410089/(2*0.0007136)#29年以后会降低工作预期length(which(data_wage1[,'exper']>29))#111个大于29年的

C6.3二次项系数的置信区间

#(1)#对educ求导易得导数为B1+B3exper#(2)#教育的回报不取决exper意味着B3=0,则对立假设：在给定教育年限的情况下,B3>0#(3)data_wage2<-read.csv('/home/wangjianlong/files/programs/college_life/econometrics/excel_data_1/wage2.csv',header = T)lm_wage2<-lm(log(wage)~educ+exper+educ:exper,data=data_wage2)summary(lm_wage2)#给定5%的显著性水平，B3的t值对应的P值为0.0365小于0.05,因此拒绝原假设，认为教育的回报取决于经验。newvar<-(10*data_wage2$educ-data_wage2$educ*data_wage2$exper)lm_wage2_1<-lm(log(wage)~educ+exper+newvar,data=data_wage2)summary(lm_wage2_1)confint(lm_wage2_1,'educ')#置信区间是[0.06309736 0.08906172]

C6.4 二次项的最优值

data_gpa2<-read.csv('/home/wangjianlong/files/programs/college_life/econometrics/excel_data_1/gpa2.csv',header = T)#(1)lm_gpa2<-lm(sat~hsize+I(hsize^2),data=data_gpa2)summary(lm_gpa2)#sat= 997.981+19.814hsize-2.131I(hsize^2)#Adjusted R-squared:  0.007169 n=4137#由于二次项系数t值对应的P值小于0.001,所以该变量是统计显著的#(2)#最优规模在模型的最大值处取到，该值为-19.814/(2*-2.131)*100#最优规模为464.8991#(3)#从调整的R方来看，该模型只解释了学术成绩变异的0.7%,这个解释较小，所以不是最优代表#(4)lm_gpa2_1<-lm(log(sat)~hsize+I(hsize^2),data=data_gpa2)summary(lm_gpa2_1)#sat= 6.8960291 +0.0196029hsize-0.0020872I(hsize^2)##最优规模在模型的最大值处取到，该值为-0.0196029/(2*-0.0020872)*100#最优规模为469.598#两者结论差异不大

未完待续。（抱歉，最近较忙，后期有时间再补上）

0 0