概率论和数理统计-名词解释

来源:互联网 发布:smali文件转java 编辑:程序博客网 时间:2024/05/16 13:03

一、概率论

1.核密度估计
2.特征函数

二、数理统计

  1. 偏回归系数:多元线性回归方程Y=a+b1X+b2X+…+bmXm中,各个自变量Xi的系数bi(i=1,2,…,m),称为应变量Y对自变量Xi的偏回归系数,相应的总体偏回归系数用βi表示。bi表示当其他自变量取值固定时,Xj变化(增加或减少)1个单位,则Y平均变化bi个单位,是反映Y随Xi数量变化的方向和大小(或快慢)的指标。bi>0,Y随Xi增加而增加;bi<0,Y随Xi增加而减少。|bi|值越大,Y随Xi变化越大(或越快)。

  2. 潜变量(Latent Variable)和显变量(Manifest或Observable Variable):潜变量往往表示某一复杂的无法之间测量的概念或建构。比如,信任、虔诚、社会融合。这些概念可以被操作化成不同的维度以不同的指标(indicator)加以测量。由此,可以看到,一个潜变量往往被建构成多个显变量(或指标)。不过,请注意,这只是SEM或者心理学/社会学中的“潜变量”在经济学或统计学中,潜变量所指的含义稍有所不同。举个例子,比如,2009年一共有200个人报考北大社会学系的研究生,最后我们发现只有20个被录取了。注意,这里我们看到的结果是“录取或未被录取”(大家都知道,这个可以用logistic模型进行分析)。但实际上,再录取和未被录取的背后,实际上隐含着考生的“能力”差异(注意,能力是无法直接观测的!!),只有能力达到一定程度的考生才会被录取,(我们现在衡量能力的办法是考试成绩,比如360及以上就被录取)。所以,我们看到,在每一个二分变量(0-1变量)背后,实际上都隐含着一个不可观测的连续型变量(该变量被计量经济学家或统计学家称作潜变量),当该连续型潜变量的取值超过一定的量时,就表现为事件发生了(本例为,被录取了)。这一逻辑,换用大家可能都熟悉一种描述就是量变引起质变,发生在潜变量上的量变达到一定程度之后(这是个门槛!)就出现了有0-1变量反映出来的(是vs否、发生vs未发生)质变。质变是我们观察到的或可以测量的,但量变是隐含着的。

  3. 面板数据:面板数据,即Panel Data,也叫“平行数据”,是指在时间序列上取多个截面,在这些截面上同时选取样本观测值所构成的样本数据。传统的计量模型分为时间序列模型和截面模型,对于前者的深入分析很多超出了经典计量经济学的范畴,而在金融领域应用较多,而经济学上往往更加关心的是截面模型。

    面板数据有时间序列和截面两个维度,当这类数据按两个维度排列时,是排在一个平面上,与只有一个维度的时间序列或者截面数据排在一条线上有着明显的不同,整个数据表格像是一个面板,所以把panel data译作“面板数据”。

  4. 固定效应模型与随机效应模型:方差分析主要有三种模型:即固定效应模型(fixed effects model),随机效应模型(random effects model),混合效应模型(mixed effects model)。

    所谓的固定、随机、混合,主要是针对分组变量而言的。

    固定效应模型,表示你打算比较的就是你现在选中的这几组。例如,我想比较3种药物的疗效,我的目的就是为了比较这三种药的差别,不想往外推广。这三种药不是从很多种药中抽样出来的,不想推广到其他的药物,结论仅限于这三种药。“固定”的含义正在于此,这三种药是固定的,不是随机选择的。

    随机效应模型,表示你打算比较的不仅是你的设计中的这几组,而是想通过对这几组的比较,推广到他们所能代表的总体中去。例如,你想知道是否名牌大学的就业率高于普通大学,你选择了北大、清华、北京工商大学、北京科技大学4所学校进行比较,你的目的不是为了比较这4所学校之间的就业率差异,而是为了说明他们所代表的名牌和普通大学之间的差异。你的结论不会仅限于这4所大学,而是要推广到名牌和普通这样的一个更广泛的范围。“随机”的含义就在于此,这4所学校是从名牌和普通大学中随机挑选出来的。

    混合效应模型就比较好理解了,就是既有固定的因素,也有随机的因素。

    一般来说,只有固定效应模型,才有必要进行两两比较,随机效应模型没有必要进行两两比较,因为研究的目的不是为了比较随机选中的这些组别。

    固定效应和随机效应的选择是大家做面板数据常常要遇到的问题,一个常见的方法是做huasman检验,即先估计一个随机效应,然后做检验,如果拒绝零假设,则可以使用固定效应,反之如果接受零假设,则使用随机效应。但这种方法往往得到事与愿违的结果。另一个想法是在建立模型前根据数据性质确定使用那种模型,比如数据是从总体中抽样得到的,则可以使用随机效应,比如从N个家庭中抽出了M个样本,则由于存在随机抽样,则建议使用随机效应,反之如果数据是总体数据,比如31个省市的Gdp,则不存在随机抽样问题,可以使用固定效应。同时,从估计自由度角度看,由于固定效应模型要估计每个截面的参数,因此随机效应比固定效应有较大的自由度。

  5. 方差的解释率:估计值的方差与总体方差之间的差异就是回归方程对方差的解释率。

原创粉丝点击