做统计分析课程设计时回忆的一些知识

来源:互联网 发布:重装系统后连不上网络 编辑:程序博客网 时间:2024/05/20 11:21

真的全忘了。。。

泊松、指数、伽马分布

  • 泊松分布: 已知某事件单位时间的平均发生率λ,能给出单位时间内实际上发生X次的概率。可以证明二项分布取极限(试无数次)就是泊松分布。
  • 指数分布: 泊松过程中,第k次随机事件与第k+1次随机事件出现的时间间隔t服从指数分布,即 tExpotional(λ) 。可以发现指数分布的累积分布函数(注意不是概率密度函数):1eλt 中的eλt 就是泊松分布中x个时间内不发生事件的概率。
  • 伽马分布:XΓ(α,β) 说的是事件平均概率1β 的时候等到第 α个事件发生的时间X符合伽马分布
    以上就是它们之间的关系。提这个是因为指数分布、卡方分布都是伽马分布的特例。

显著性检验

Z检验

有一个来自正态分布总体的样本Xi,已知(指定)总体的σ2,想知道总体均值μ和给的μ0有没有显著差异。于是零假设μ=μ0,用统计量Z=μμ0σn在正态分布里找拒绝域。

t检验

单样本的

有一个来自正态分布总体的样本Xi,不知道总体的σ2μ0,想知道总体均值μ和给的μ0有没有显著差异。于是零假设μ=μ0,用样本标准差S2代替σ2,用统计量t=μμ0Snt(n1)在学生分布(t分布)里找拒绝域。
因为是用样本估计了总体的标准差,所以不能用正态分布了。学生分布当时被发明出来就是为了解决这个问题的,它的概率密度函数f(t)里面有一个自由度(n1)的参数。

双样本的、配对的等等

统计量算的方式有差别。
Minitab帮助
维基

F检验

又叫联合假设检验、方差齐性检验。t检验要求两个总体方差相等的时候就要先检验方差齐性。
有两个正态样本,想检验两个总体的方差是否有显著差异。构造统计量F=U1/d1U2/d2U1U2呈卡方分布,它们的自由度分别是d1d2

卡方分布

符合标准正态分布的随机变量的平方和服从自由度为 k 的卡方分布。比如有一个来自正态分布总体的样本Xi,不知道总体的σ2μ0,想知道总体方差σ2和给的σ20有没有显著差异。样本的标准差S是总体标准差的无偏估计,再除以σ20就正好凑出来一个标准正态分布。统计量(n1)S2σ20χ(n1),在卡方分布函数里找拒绝域。

线性回归中的显著性检验

检验一个回归系数

用t检验,零假设为回归系数β是0,。从最小二乘求出回归系数的方法可知,回归系数的标准差Sβ=σΣ(xix¯)2,但总体y的标准差σ不知道,所以用样本的Sy代替。计算统计量t=βSβt(n2)

检验所有的回归系数

用f检验,零假设为所有的回归系数都是0。为了验证这一点,使用了三个平方和(间接表现出零假设的影响):
- SSM/SSR (Sum of Squares for Model/Regression)
- SSE (Sum of Squares for Error)
- SST (Sum of Squares Total)
关系:SST(样本值和样本平均值之差的平方和)=SSM(预测值和平均值之差的平方和)+ SSE(预测值和样本值之差的平方和)。顺便一提,判定系数r2=SSMSST
把SSM和SSE都除以σ2就能构造两个符合卡方分布的变量,相除之后消去不知道的方差。
最终得到统计量F=SSM/pSSE/np1F(p,np1),在F分布函数里找拒绝域。

ANOVA

主要的零假设就是几个样本的均值相等,即没有显著性差异。为了验证这一点,用的基本就是上面显著性检验的方法。
在检验两组之间的差异的时候,就可以用t检验;而在多组的时候,虽然可以两两做t检验,但是不能替代原有的假设,所以用F检验。F检验时也是用组间之差的平方和比上组内之差的平方和。跟回归系数检验里面的F检验一个道理。
总之就是没有特别的方法,就是上面方法的综合运用。

1 0