推断性统计部分(二)---参数估计

来源:互联网 发布:mp3剪辑软件 编辑:程序博客网 时间:2024/04/29 10:44

推断性统计部分(二)—参数估计

标签(空格分隔): 概率论与数理统计


参数估计包含两大部分,点估计及区间估计,点估计,是估计参数点的值,一个确定的值,区间估计就是估计参数的范围。

点估计

分为矩估计法及最大似然估计法两种,矩估计法的原理就是样本的k阶矩依概率收敛于相应的总体矩,然后建立方程组求解参数;最大似然估计就是利用利用样本的联合分布律建立似然函数,然后对各个参数进行求导得到似然函数的极值点,从而求出参数的最大似然估计值。下面进行细讲。

矩估计法:

一般使用是一阶矩及二阶矩来进行计算,容易知道它们分别收敛于总体的E(X)E(X2)两上参数,而E(X2)=D(X)+[E(X)]2,所以矩估计法非常容易计算。
对于任意总体X,若它的均值μ及方差σ2均存在,且有σ2>0,但μ,σ2未知,设X1,X2,Xn来自X的样本,μ,σ2的矩估计量可以通过如下计算得到

{μ^=X¯σ2^=1nni=1(XiX¯)2

最大似然估计法:

来自总体的的样本X1,X2,Xn,它们的联合分布律如下:

{L(θ)=ni=1p(xi;θ)L(θ)=ni=1f(xi;θ)
其中L(θ)称为似然函数,当存在θ^使L(θ^)取得最大值,则称θ^为最大似然估计量。
因此,求最大值的问题就可以归结为微分求极值问题了,通常可以从方程ddθL(θ)=0得出结果,又因L(θ)lnL(θ)在同一处θ取得极值,所以又可以使用ddθlnL(θ)=0求得,而通常来说,后一方程往往更方便,后一方程称为对数似然方程。
若存在多个参数的情况,则通过对每一个参数进行求导,组成方程组来求解。
但最大似然函数除了简单情况外,往往没有有限函数形式的解,这需要乃至数值方法求近似值,常用算法是牛顿-拉弗森(Newton-Raphson)算法或拟牛顿算法(未做相关了解)。

关于截尾样本的最大似然估计:分为定数截尾和定时截尾,定数截尾就加一个组合Cnm,定时截尾也加一个组合上去,但对于微分求导来说,忽略掉常数因子并不影响最终结果的计算,所以几乎是一样的求极值方法。

估计量的评选标准:

分为无偏性、有效性和相合性三个,简单介绍一下。
无偏性:估计量的期望存在,若E(θ^)=θ,则称θ^θ的无偏估计量
有效性:若θ^1θ^2都是θ的无偏估计量,且两个估计量的样本容量相同,存在一个θ使到D(θ^1)D(θ^2),则称θ^1θ^2有效。
相合性:当样本容量n时,估计量θ^依概率收敛于θ,则称θ^θ的相合估计量

区间估计

所有的估计都是估计未知参数,点估计则是估计具体的某一个数值,而区间估计,则是估计这个参数有多大的概率(置信水平:1-α,为何是1-α而不是α,因为约定俗成的问题,α在假设检验的时候,它叫显著水平,而置信水平刚好是1-显著水平,所以就用它了)落在某个区间(置信区间,置信下限,置信上限)范围。

有时候,我们不关注它到底有多大,只关注它到底多小,比如元件寿命,不关注它有多小,只关注它有多大,比如杂质含量。这样,就引出了单侧置信区间的概念,同样,也是估计这个参数有多大的概率(1-α)落在区间上,和双侧区间的区别是,双侧区间因为要兼顾两边,所以其实一边只有1α2这么多。

对于置信区间的基本计算方法如下:
1、判断是否正态总体
2、找到枢轴量(简单的说,就是一个关于随机变量X及参数θ的函数,它有自己单独的,与变量及参数都无关的分布,这样就可以用过这个分布来确定函数内的参数θ的置信区间)
3、利用枢轴量的分布求出置信水平1α的置信区间,根据枢轴量函数计算出θ的置信区间

关于置信区间枢轴量(X¯μσ/n)的理解,它是一个标准化变量,而标准化变量分子的意思就是,在样本中,样本的可能均值X¯与总体均值μ的距离,也可以反过来理解,即总体均值μ与样本的可能均值X¯的距离,分母就是抽样分布中的标准差,为什么要除以n由中心极限定理给出(nXnE(nXn)Var(nXn),而Var(nXn)=nVar(Xn),所以n就出来了),整个式子的意思即为:“总体均值与样本均值的差值的距离有多少个标准差那么长!”,它是一个比例,也以可以和标准正态分布等效。
而卡方分布和F分布的两上枢轴量也是一个比例,它同样由两个分布双侧或单侧的比例确定,又因方差无负值,所以这个双侧和单侧是由小于某一个正值和大于某一个正值给出,不像正态分布和t分布一有正负值。

于是,各种情况的置信区间求解如下图:
置信区间

0 0
原创粉丝点击