协整理论和面板数据分析
来源:互联网 发布:中天制片软件 编辑:程序博客网 时间:2024/06/05 03:26
转载自:http://blog.sina.com.cn/s/blog_458bb22d0100x9rl.html
面板数据分析方法步骤全解
步骤一:分析数据的平稳性(单位根检验)
因此为了避免伪回归,确保估计结果的有效性,我们必须对各面板序列的平稳性进行检验。而检验数据平稳性最常用的办法就是单位根检验。首先,我们可以先对面板序列绘制时序图,以粗略观测时序图中由各个观测值描出代表变量的折线是否含有趋势项和(或)截距项,从而为进一步的单位根检验的检验模式做准备。
单位根检验方法的文献综述:在非平稳的面板数据渐进过程中,Levin andLin(1993) 很早就发现这些估计量的极限分布是高斯分布,这些结果也被应用在有异方差的面板数据中,并建立了对面板单位根进行检验的早期版本。后来经过Levin et al. (2002)的改进,提出了检验面板单位根的LLC 法。Levin et al. (2002) 指出,该方法允许不同截距和时间趋势,异方差和高阶序列相关,适合于中等维度(时间序列介于25~250 之间,截面数介于10~250 之间) 的面板单位根检验。Im et al. (1997) 还提出了检验面板单位根的IPS 法,但Breitung(2000) 发现IPS 法对限定性趋势的设定极为敏感,并提出了面板单位根检验的Breitung 法。Maddala and Wu(1999)又提出了ADF-Fisher和PP-Fisher面板单位根检验方法。
有时,为了方便,只采用两种面板数据单位根检验方法,即相同根单位根检验LLC(Levin-Lin-Chu)检验和不同根单位根检验Fisher-ADF检验(注:对普通序列(非面板序列)的单位根检验方法则常用ADF检验),如果在两种检验中均拒绝存在单位根的原假设则我们说此序列是平稳的,反之则不平稳。
但也有如下的宽限说法:如果变量个数多于两个,即解释变量个数多于一个,被解释变量的单整阶数不能高于任何一个解释变量的单整阶数。另当解释变量的单整阶数高于被解释变量的单整阶数时,则必须至少有两个解释变量的单整阶数高于被解释变量的单整阶数。如果只含有两个解释变量,则两个变量的单整阶数应该相同。
也就是说,单整阶数不同的两个或以上的非平稳序列如果一起进行协整检验,必然有某些低阶单整的,即波动相对高阶序列的波动甚微弱(有可能波动幅度也不同)的序列,对协整结果的影响不大,因此包不包含的重要性不大。而相对处于最高阶序列,由于其波动较大,对回归残差的平稳性带来极大的影响,所以如果协整是包含有某些高阶单整序列的话(但如果所有变量都是阶数相同的高阶,此时也被称作同阶单整,这样的话另当别论),一定不能将其纳入协整检验。
我们主要采用的是Pedroni、Kao、Johansen的方法。
通过了协整检验,说明变量之间存在着长期稳定的均衡关系,其方程回归残差是平稳的。因此可以在此基础上直接对原方程进行回归,此时的回归结果是较精确的。
这时,我们或许还想进一步对面板数据做格兰杰因果检验(因果检验的前提是变量协整)。但如果变量之间不是协整(即非同阶单整)的话,是不能进行格兰杰因果检验的,不过此时可以先对数据进行处理。引用张晓峒的原话,“如果y和x不同阶,不能做格兰杰因果检验,但可通过差分序列或其他处理得到同阶单整序列,并且要看它们此时有无经济意义。”
下面简要介绍一下因果检验的含义:这里的因果关系是从统计角度而言的,即是通过概率或者分布函数的角度体现出来的:在所有其它事件的发生情况固定不变的条件下,如果一个事件X的发生与不发生对于另一个事件Y的发生的概率(如果通过事件定义了随机变量那么也可以说分布函数)有影响,并且这两个事件在时间上又有先后顺序(A前B后),那么我们便可以说X是Y的原因。考虑最简单的形式,Granger检验是运用F-统计量来检验X的滞后值是否显著影响Y(在统计的意义下,且已经综合考虑了Y的滞后值;如果影响不显著,那么称X不是Y的“Granger原因”(Granger cause);如果影响显著,那么称X是Y的“Granger原因”。同样,这也可以用于检验Y是X的“原因”,检验Y的滞后值是否影响X(已经考虑了X的滞后对X自身的影响)。
在面板数据模型形式的选择方法上,我们经常采用F检验决定选用混合模型还是固定效应模型,然后用Hausman检验确定应该建立随机效应模型还是固定效应模型。
检验完毕后,我们也就知道该选用哪种模型了,然后我们就开始回归:
在回归的时候,权数可以选择按截面加权(cross-section weights)的方式,对于横截面个数大于时序个数的情况更应如此,表示允许不同的截面存在异方差现象。估计方法采用PCSE(Panel Corrected Standard Errors,面板校正标准误)方法。Beck和Katz(1995)引入的PCSE估计方法是面板数据模型估计方法的一个创新,可以有效的处理复杂的面板误差结构,如同步相关,异方差,序列相关等,在样本量不够大时尤为有用。
单位根检验、协整、格兰杰因果检验有什么关系?
单位根检验、协整检验和格兰杰因果关系检验三者之间的关系
一、讨论一
1、单位根检验是序列的平稳性检验,如果不检验序列的平稳性直接OLS容易导致伪回归。
2、当检验的数据是平稳的(即不存在单位根),要想进一步考察变量的因果联系,可以采用格兰杰因果检验,但要做格兰杰检验的前提是数据必须是平稳的,否则不能做。
3、当检验的数据是非平稳(即存在单位根),并且各个序列是同阶单整(协整检验的前提),想进一步确定变量之间是否存在协整关系,可以进行协整检验,协整检验主要有EG两步法和JJ检验
A、EG两步法是基于回归残差的检验,可以通过建立OLS模型检验其残差平稳性
B、JJ检验是基于回归系数的检验,前提是建立VAR模型(即模型符合ADL模式)
4、当变量之间存在协整关系时,可以建立ECM进一步考察短期关系,Eviews这里还提供了一个Wald-Granger检验,但此时的格兰杰已经不是因果关系检验,而是变量外生性检验,请注意识别
二、讨论二
1、格兰杰检验只能用于平稳序列!这是格兰杰检验的前提,而其因果关系并非我们通常理解的因与果的关系,而是说x的前期变化能有效地解释y的变化,所以称其为“格兰杰原因”。
2、非平稳序列很可能出现伪回归,协整的意义就是检验它们的回归方程所描述的因果关系是否是伪回归,即检验变量之间是否存在稳定的关系。所以,非平稳序列的因果关系检验就是协整检验。
3、平稳性检验有3个作用:1)检验平稳性,若平稳,做格兰杰检验,非平稳,作协正检验。2)协整检验中要用到每个序列的单整阶数。3)判断时间学列的数据生成过程。
三、讨论三
其实很多人存在误解。有如下几点,需要澄清:
第一,格兰杰因果检验是检验统计上的时间先后顺序,并不表示而这真正存在因果关系,是否呈因果关系需要根据理论、经验和模型来判定。
第二,格兰杰因果检验的变量应是平稳的,如果单位根检验发现两个变量是不稳定的,那么,不能直接进行格兰杰因果检验,所以,很多人对不平稳的变量进行格兰杰因果检验,这是错误的。
第三,协整结果仅表示变量间存在长期均衡关系,那么,到底是先做格兰杰还是先做协整呢?因为变量不平稳才需要协整,所以,首先因对变量进行差分,平稳后,可以用差分项进行格兰杰因果检验,来判定变量变化的先后时序,之后,进行协整,看变量是否存在长期均衡。
第四,长期均衡并不意味着分析的结束,还应考虑短期波动,要做误差修正检验。
单位根检验、协整检验有用吗?——欢迎大家讨论单位根检验(单整检验)、同积过程检验(即,协整检验)有用吗??——欢迎大家讨论[原创]
首先,我得承认,我对这部分知识并不十分了解(只知道这个工具是干什么用的,但并不知道这个工具是怎么做成的)所以难免有可笑之处。
下面就是我想不通的地方:
(1)单位根检验的意义。
我看了半天,感觉它的目的就是为了验证某一个模型中所选择的自变量、因变量是否平稳,如果不平稳,就给它弄平稳了,从而避免“伪回归”的出现。可是,我们在做经典回归或者AR、ARMA等模型之前,不都是要对原始数据进行平稳化处理吗(标准化、归一化、差分)?并且在判断某一序列是否平稳时,肉眼观察不是更方便吗?画出图来,直观地看看是否围绕着均值上下波动,并且一般来说不超过N倍的标准差,不就行了吗,还需要什么单位根检验阿?
唯一觉得有点意义的是:通过检验某个貌似有趋势的序列,发现它是个带常数项的维纳过程,然后得出结论——无法预测。
(2)协整检验的意义。
说是可以得到两个变量(而且是存量)之间的长期均衡关系。但看了半天,感觉绕了一大圈,最后还是做了个普通的回归。有种被愚弄的感觉。原先,我还以为,有了协整这个工具之后,宏观经济学会少了很多争论,可是好像并没有:(
(3)检验了半天,仍然只是以线性关系作为假设前提。如果两个变量之间是非线性的关系,你检验了半天不是瞎忙活吗?
其实我也认为这个问题是合理的,但楼主的问题似乎与此无关, 而且缺乏基本的统计常识。 比如容肉眼观察是否平稳,这是很荒谬的,若是如此, 人们为什么要用t-test 来检验两个均知是否相等,这似乎比这个问题更容易用肉眼看出来吧。所以楼主提的问题是无稽之谈啊。
另外其后两个问题也是很幼稚的,没错协整是做了一个普通回归,但是这个普通回归在一般情况下是spurious的,只有在经过协整检验才能说明他是正确的,这是科学性的体现。
另外关于线性于非线性, 在没有十分精确的理论知道的时候, 计量的处理一般会假设线性关系,因此第三个问题本身不成其为一个问题。
在只有一两个变量时,均值检验确实不如“肉眼”观察的方便(准确性则差不多),只有多变量时才有意义。而对某一个序列的平稳性问题,就很类似。而且好像很多时间序列的书都有这么一句话“一般来说,经济变量经过1、2次差分就平稳了”“观察平稳之后,再作AR,ARMA...
模型”。。。当然我不否认,单位根检验的理论贡献,但对于像我这样一个功利色彩非常重的人来说,学习它的投入产出太不划算了:)
经过1、2次差分后的再作回归一般都不再是“伪回归了”吧?我想谁也不会闭者眼睛作回归吧
.而且我发现,经过协整检验之后的回归与经济理论的结果都是一致的,这让我很失望,因为早知如此,还不如学习经济理论知识,简单的多啊:)
什么是伪回归
从提出“伪回归”的历史看定义为:
单位根检验由于传统的经济计量学方法对非平稳的时间序列不再适用,利用传统方法对计量模型进行统计推断时,许多参数的统计量的分布不再是标准分布,所作的回归被称为“伪回归”
比如利用最小二乘法对非平稳的各个变量进行回归就是伪回归
如各个非平稳变量都是同阶单整,就可以作协整分析
所谓伪回归是指理论上自变量是不能完全解释变量,或者不因该解释。可当在对进行线性回归的时候得出肯定的结论,虽然通过单位根检验。这个时候就说得出的回归是伪回归。
举例子就用上面的例子很好:GDP每年都增长和旁边的树每年都长高,如果你直接用数据回归,那肯定存在正相关,而其实这个是没有意义的回归。
关于虚假回归(伪回归)的困惑
经典计量经济学理论是建立在时间序列平稳的基础上的,所假设的变量间的相关系数服从的是正态分布。现代计量经济学研究发现,大部分经济变量是非平稳的。用蒙特卡洛模拟方法分析非平稳时间序列的相关系数的分布情况,研究结果表明:当时间序列非平稳是,相关系数实际上服从的是倒U和U自行分布,因此增加了拒绝解释变量系数为零假设的概率,并且该概率随着样本容量和时间序列单整阶数的增加而增加。这样就降低了检验的功效,增加了那伪的可能性。也就是说,在大样本和较高单整阶数的条件下,随意检验本来独立的两个变量的相关系数的显著性,结论都是肯定的,直接结果是导致不相关的两个非平稳变量在相关系数的分布呈现倒U和U自行的情况下,被检验出两者具有相关关系。即是说,用非平稳变量进行回归分析,尤其在大样本和较高单整阶数的情况下,结论全部都是变量之间有相关关系,讲实际上不相关的两个非平稳变量来回归分析,是一种虚假回归。所以,对非平稳变量间进行回归分析,首先应该考虑和检验变量的平稳性。
也就是说,对于非平稳时间序列直接建立回归,很容易产生虚假回归,拿简单的一元线性回归来说,比如1978年-2008年的人均消费支出Yt与人均可支配收入Xt之间的回归,首先Yt与Xt肯定都是非平稳的时间序列,但是在做这两者的回归的时候,也没提平稳性检验的事就直接建立了两者之间的回归模型。虽然我们知道他们之间的回归肯定不是虚假回归,是有实际意义的。但是很多情况下我们对于两组时间序列数据之间存在的回归是否属于虚假回归是不知道的,那该怎样区分呢??
至于为什么没有做平稳性分析就可以拿上面两个量来做回归,这是因为有伟大的“协整理论”存在,他的横空出世虽然先震傻了许多计量的人,但是很快人们就又可以嘘一口气,因为在我们现实生活中,很多时候许多非平稳的变量是具有协整关系的~因此我们可以继续做这个回归,不过在做这个回归之前,需要协整检验一下,给我们一个“心理安慰”后,我们就可以更放心的做回归了。(这个之前看过一个讲协整的让人醍醐灌顶的文章,去不知道到哪去了...)
至于伪回归分辨的问题,这个,个人觉得需要看你的理论假设前提了。如果有比较坚实的理论支持,应该就可以使用。比如前两天我看的一篇论文,谈“足球比赛对股市的影响”(我是没有看完,因为感觉挺扯淡的),他就提出了有力的假设前提,这两者是可以用来做回归,作分析的。。所以你懂得,这个得看分析看理论看经验了
Spurious Regression:伪回归/虚假回归
计量经济学中提到过伪回归的问题,那么什么是伪回归呢?
举个例子,中国的GDP随时间是呈增长趋势;美国森林覆盖率w也是随时间呈增长趋势。那么对这两个变量做回归。比如假设模型为GDP=α+ßw+ε,ε为随机误差项,服从N(0,σ^2)。
假设根据1990年-2010年20年间的数据,通过最小二乘估计得到参数的估计值,并计算R^2,可以发现R^2较大,表示出数据拟合较好,两个变量之间有很好的拟合程度,因为是两者有共同趋势,但是,这两个变量之间可以说是没有任何关系。
这就是时间序列中出现的伪回归问题,解决方法很简单,除了通过变量的具体含义判断,还可以在模型中加入时间参数t,这样就可以消除伪回归的问题。
伪回归 发表评论(0) 编辑词条
单位根检验由于传统的经济计量学方法对非平稳的时间序列不再适用,利用传统方法对计量模型进行统计推断时,许多参数的统计量的分布不再是标准分布,所作的回归被称为“伪回归”。
什么是伪回归方程?
就是假的回归方程
回归方程是:
对变量之间统计关系进行定量描述的一种数学表达式。
指具有相关的随机变量和固定变量之间关系的方程。
伪回归和误差修正模型的实证分析
一、问题的提出在金融数据分析和计量经济学中,经常会使用时间序列数据,特别是在线性回归模型中,即使yt=xt日十拌:(t=1,2,A,T)解释变量和被解释变量有一定的相关关系,但是往往会出现令人意外的结果,比如说,t检验和F检验都通过,且参数具有明显的经济意义,从统计学的角度我们不拒绝y:和x:之间存在线性关系的假设,但模型在预测时,会出现较大的偏误,这时就很可能出现伪回归(suspiciousre罗s-sion)现象。葛兰杰和纽博尔德(Gmllger and New-bold)曾经提出一个良好的经验规则:当呼>DW(扩和DW分别为复相关系数及Duthin二研怡怡。n统计量)时,所估计的回归就有伪回归之嫌。有时y,和xt之间根本不存在任何的线性关系,但相关的检验量却十分地显著,这种现象就称之为伪回归现象。其实这种现象早为经济学家们所认识,但在怎样的条件下会产生伪回归现象,长期以来没有统一的认识,直到20世纪70年代中期,上述两位学者用蒙特卡罗模拟的方法表明,当y:和x:都服从单位根过程时,即使它们之间不存在任何的线性相关关系,以yt对x:作回归得到俘的最小......
Y是平稳的,X是不平稳的,那用Y对X回归是伪回归吗?
我是这么认为的:伪回归是指由于X,Y都随时间自动变化而造成的Y与X看似能回归的表面现象,既然Y是平稳的了,那就不存在这个问题了吧?
协整理论
经典的计量经济模型是在一定的假定的基础上的,例如随机误差项零均值和相同方差,随机误差项在不同样本点之间是独立的,不存在序列相关,随机误差项与解释变量之间不相关,随机误差项服从0均值、同方差的正态分布。
但在我们的实际的社会经济现象中,变量往往不满足上述的条件,特别是对于时间序列数据,如果它们往往是序列相关的。时间序列数据如果是平稳的,即,对于时间一个时间序列x,如果它的均值与时间t无关,其方差是有限的,即随着时间的推移,时间序列数据以一种相对不变的振幅围绕均值波动,对于这样的一个序列,我们可能用自回归移动平均模型ARMA(p,q)来表示和估计。
一个时间序列如果不是平稳的,由很难由变量之间的统计关系来推断计量经济模型的形式,由此得到的模型往往不能反映实际情况,用于预测决策等也会有较大的失真,通常被称为“伪回归”问题。20世纪70年代以来,变量的非平稳性问题和伪回归问题越来越引起人们的注意。当变量属于非平稳过程时,要由经济变量间的统计关系推断它们之间是否存在因果关系是相当困难的,恩格尔(Engle)和格兰杰(Granger)提出了协整理论和误差修正模型,协整理论的作用在于正确地解释了经济现象和预测现象,误差修正模型(ECM)将影响变化的因素有效地分解成长期静态关系和短期动态关系之和。其中格兰杰定理证明了协整关系与误差修正模型之间的关系,指出若干个一阶非平稳经济变量间若存在协整关系,那么这些变量一定存在误差修正模型表达式,反之也成立。
【简介】
协整关系
什么是平稳性,什么是序列相关性,两者关系如何?
平衡性指的是:如果一个时间序列的均值是常数,方差是常数,不同观测值之间的协方差仅仅依赖于观测值之间的滞后阶数,那么就可以说此时间序列是平衡的。而残差的序列相关,我的理解就是残差间的自相关,在通常的OLS模型中,通常要求考虑三个方面:异方差性,自相关,多重共线性。所以我不懂的是:在做协整检验时,残差的自相关问题是否也要考虑,如果考虑,是否也能用检验普通模型的方法进行处理?
那协整的内涵是什么呢?平稳性在协整中含义又是什么?如果残差是一个平稳序列但有序列相关性,这能说明什么呢?
请问高按照协整理论,如果对于两个不同阶的变量进行回归,得到的可能是虚假回归。协整理论认为只有两个(或多个)同阶单整的变量才可能存在长期稳定的某种关系即协整关系。手若两个变量不是同阶的,是否意味着这两个变量不能回归,若想做回归应怎样处理?还有怎样找到月度和季度数据资料?
你当然可以考虑异方差性,这个在EVIEWS中是很简单的,只要点一个鼠标就能做到啦。
在古扎拉蒂的书上,他对序列相关和自相关并没有区别。他的意思就是残差间是否存在相关关系。真的希望高手能告知我在对两变量求协整关系时,需不需要考虑残差的相关问题。 cov(ui,uj)是否必须保证等于零?
协整关系指的是长期稳定关系.
SPSS 能进行,协整检验,df,adf检验吗?各位高手,不知在SPSS中怎么用??他们的怎么判定??比如用看t或其他值??还有怎么消除呢?EVIEWS是AR(n)???还有EVIEWS中有因果分析是不是和spss中的person一样??在SPSS中怎么因果分析??那位高手知道spss中的应用方法?
序列相关和自相关应该是有区别的,自相关可能指序列相关在时间序列下的情景。
在做检验残差的平稳性之前要先保证残差的无序列相关性.你可以给残差项加一个AR项就可以去除序列相关性.
我做了几个练习,发现如果消除了序列相关问题后,再来检验残差时,残差都变平稳了。我也不知道在检验残差的平稳前是否需要序列相关处理。有没有理论依据来说明这个问题。否则不同的处理方式导致不同的结果。
我刚看到一篇做实证的文章,他检验协整模型的时候检验了序列相关,异方差,用检验多重共线形的方法选择自回归阶数。明这个问题。否则不同的处理方式导致不同的结果。
我理解的序列相关是针对横截面数据而言的,自相关是针对时间序列数据而言的.
单位根检验、协整检验和格兰杰因果关系检验三者之间的关系
- 协整理论和面板数据分析
- 深入浅出面板数据分析
- 面板数据分析plm
- lattice面板数据分析(未完成)
- 数据分析参考资料整理
- 面板数据分析步骤及流程-R语言
- 免费数据分析辅助工具整理
- 数据分析中的SQL整理
- 数据分析入门书籍整理
- 市场研究中的数据分析知识整理 (四)-主成分分析和因子分析
- XY52代码整理和分析
- 数据分析中非常实用的自编函数和代码模块整理
- Python数据分析模块pandas整理
- 计算机审计数据采集、整理、分析点滴
- 数据分析入门整理(一)
- 数据分析入门整理(二)
- 整理了部分数据分析用图表
- 数据分析和数据挖掘
- IIS7 下MIME类型不能保存
- Android高效加载大图、多图解决方案,有效避免程序OOM
- openWRT学习之LUCI之二访问model下lua文件实现简单的显示文本内容
- annotation-processing-support
- 数据库中查找两个日期之间的数据
- 协整理论和面板数据分析
- IOS总结_实现UIButton的图文混排(二)
- Xcode6的新特性、iPhone6和iPhone6Plus的适配
- Python的Tornado框架的REST支持方案
- 【叶子函数分享四十五】返回两个时间范围内的一个随机时间
- Launcher 在配置文件中配置桌面快捷方式->代码分析
- springmvc+maven+sitemesh+bootstrap
- windows程序设计之绘图基础之GDI原理
- 【叶子函数分享四十四】全角半角转换函数