推断性统计部分(一)---样本与分布的关系及其检验统计量

来源:互联网 发布:淘宝网广场舞舞蹈服 编辑:程序博客网 时间:2024/04/29 15:15

推断性统计部分(一)—样本与分布的关系及其检验统计量

标签(空格分隔): 概率论与数理统计


统计除了可以描述随机变量特征之外,还有一个重要作用,推断!这也是为什么把统计分为描述性统计和推断性统计的原因,以我目前的理解,推断性统计的作用在于以小推大,以微观推宏观,不排除后续继续深入学习之后得出新的结论。

在我另一篇文章描述性统计(一)—-统计量中,写到过关于样本的一些统计量,在此基础上,增加样本与分布的关系。

样本平均值、样本方差、样本标准差、样本k阶矩、样本k阶中心距
样本平均值:X¯¯¯=1nni=1Xi
样本方差:S2=1n1ni=1(XiX¯)2
样本标准差:S=S2=ni=1(XiX¯)2n1
样本k阶(原点)矩:Ak=1nni=1Xki,k=1,2,3,……
样本k阶中心矩:Bk=1nni=1(XiX¯)k,k=1,2,3,……

首先知道两个定律:
大数定律:定理(服从具有期望值E(x)的同一个分布且相互独立的n个随机变量,在n足够大的时候,它们的算术平均值收敛于这一分布的期望E(x)),简单来说,就是当样本容量足够大的时候,样本均值就约等于总体均值。
中心极限定理:定理(有几个定理,不一一列出了),简单来说,就是当样本足够大的时候,从一个总体中抽出来的样本均值近似的服从N(μ,σ2n)的正态分布,其标准化变量X¯μσ/n~N(0,1)的标准正态分布。从几个总体中抽出来的各个样本均值之和服从N(μk,B2n)的正态分布,其标准化变量为Zn=nXknμkBn,其中B2n=nσ2k,一般来说,用到的都是从同一分布中抽取的数据,即同一分布的前提。
另外,有个工具可以帮助理解,在看可汗学院的统计学课程看到的,蛮有意思的一个中心极限定理检验工具【点击进入】,进去后点击左上角Begin开始就行,不会的看Instruction,注意启用JAVA

知道了这两个定理之后,再看样本及三大正态总体导出分布Nχ2tF分布的关系。

介绍一下样本,它是我们从总体中抽样出来的一组观察值,各个观察值都是已知的具体量化数字,样本具有的统计量由上面给出,由大数定律可知道,样本的均值就是总体均值的无偏估计,但要注意,样本的方差是除以(n-1)而不是n,这样得出来的方差才是总体方差的无偏估计,我们经常以此来估计总体的方差,因为总体的均值及方差总是难以知道的。

从中心极限定理可以知道,无论原来的总体是什么鬼分布,通通不管,反正抓出来的样本就可以看作是正态分布,注意,样本数量需要足够,抓一个两个就没意思了是不。

正态分布及导出分布
统计量Z=X¯μσ/n,他可以用作区间估计的枢轴量,也可以用作假设检验中的检验统计量。Z检验就是检验这个统计量的值。

χ2分布,分布情况请见分布汇总1一文,它是由标准正态总体中,各随机变量的平方和组成(χ2(n)~x21+x22++x2n),它和样本的关系主要靠统计量(n1)Sσ2χ2(n1)来维持,主要用它来判断总体方差的置信区间,另外卡方分布还用于分布拟合(优度拟合)和独立性检验,这些以后再说。
χ2(n)是非对称关系的,在使用其表格时,需要注意,对于n比较大的,如>40,则可以通过χ2α(n)12(Zα+2n1)2

t分布,也叫学生氏分布,它是标准正态分布除以卡方分布除以自由度n的商的平方根N(0,1)χ2(n)/n,这家伙的图形与正态分布根本看不出太大区别,它主要用于对小批量样本时,使用样本方差代替总体方差的统计量只要把Z统计量中的σ换成S就可以了,不过注意的是查的表是不一样的,它查的是t分数表,查的是自由度和概率、分数三者的关系!
t分布是对称分布,t1α(n)=tα(n),同样,当n>45时可以使用Z分数代替:tα(n)Zα

F分布,它是两个卡方分布与自由度的商的比值,χ2(n1)/n1χ2(n2)/n2F(n1,n2),主要用于检验方差齐性检验。
F分布的分位点相对其它来说比较另类,它们互为倒数且自由度互换,即F1α(n1,n2)=1Fα(n2,n1),特别注意自由度互换!

以上是正态分布及其导出分布,主要记住各分布是怎么来的(即定义),是由什么分布和什么分布组成的,以后在各处地方都要用到它们的定义来组合分布。

*四大定理(非常重要)*
正态总体的样本均值与样本方差的分布
有来自正态总体N(μ1,σ21)的样本X1,X2Xn,其均值为X¯,样本方差S2

定理 内容 定理一 其均值X¯N(μ,σ2/n) 定理二 1)(n1)Sσ2χ2(n1)
2)X¯S2互相独立 定理三 X¯μS/nt(n1) 定理四 若有随机变量集Y来自正态总体N(μ2,σ22),其样本均值为Y¯,样本方差为S22,变量个数分别为n1,n2,则有
1)S21/n1S22/n2F(n11,n21)
2)σ21=σ22=σ2时:
(X¯Y¯)(μ1μ2)Sw1n1+1n2t(n1+n22)S2w=(n11)S21+(n21)S22n1+n22,Sw=S2w

下一节,参数估计


  1. 描述性统计部分(二)—-常用概率分布及用处简述 ↩
0 0