做统计分析课程设计时回忆的一些知识

来源：互联网发布：重装系统后连不上网络编辑：程序博客网时间：2024/05/20 11:21

真的全忘了。。。

泊松、指数、伽马分布

泊松分布：已知某事件单位时间的平均发生率λ，能给出单位时间内实际上发生X次的概率。可以证明二项分布取极限（试无数次）就是泊松分布。
指数分布：泊松过程中，第k次随机事件与第k+1次随机事件出现的时间间隔t服从指数分布，即 t∼Expotional(λ) 。可以发现指数分布的累积分布函数（注意不是概率密度函数）：1−e−λt 中的e−λt 就是泊松分布中x个时间内不发生事件的概率。
伽马分布：X∼Γ(α,β) 说的是事件平均概率1β 的时候等到第 α个事件发生的时间X符合伽马分布
以上就是它们之间的关系。提这个是因为指数分布、卡方分布都是伽马分布的特例。

显著性检验

Z检验

有一个来自正态分布总体的样本Xi…，已知（指定）总体的σ2，想知道总体均值μ和给的μ0有没有显著差异。于是零假设是μ=μ0，用统计量Z=μ−μ0σn√在正态分布里找拒绝域。

t检验

单样本的

有一个来自正态分布总体的样本Xi…，不知道总体的σ2和μ0，想知道总体均值μ和给的μ0有没有显著差异。于是零假设是μ=μ0，用样本标准差S2代替σ2，用统计量t=μ−μ0Sn√∼t(n−1)在学生分布（t分布）里找拒绝域。
因为是用样本估计了总体的标准差，所以不能用正态分布了。学生分布当时被发明出来就是为了解决这个问题的，它的概率密度函数f(t)里面有一个自由度（n−1）的参数。

双样本的、配对的等等

统计量算的方式有差别。
Minitab帮助
维基

F检验

又叫联合假设检验、方差齐性检验。t检验要求两个总体方差相等的时候就要先检验方差齐性。
有两个正态样本，想检验两个总体的方差是否有显著差异。构造统计量F=U1/d1U2/d2，U1和U2呈卡方分布，它们的自由度分别是d1和d2。

卡方分布

符合标准正态分布的随机变量的平方和服从自由度为 k 的卡方分布。比如有一个来自正态分布总体的样本Xi…，不知道总体的σ2和μ0，想知道总体方差σ2和给的σ20有没有显著差异。样本的标准差S是总体标准差的无偏估计，再除以σ20就正好凑出来一个标准正态分布。统计量(n−1)S2σ20∼χ(n−1)，在卡方分布函数里找拒绝域。

线性回归中的显著性检验

检验一个回归系数

用t检验，零假设为回归系数β是0，。从最小二乘求出回归系数的方法可知，回归系数的标准差Sβ=σΣ(xi−x¯)2√，但总体y的标准差σ不知道，所以用样本的Sy代替。计算统计量t=βSβ∼t(n−2)。

检验所有的回归系数

用f检验，零假设为所有的回归系数都是0。为了验证这一点，使用了三个平方和（间接表现出零假设的影响）：
- SSM/SSR (Sum of Squares for Model/Regression)
- SSE (Sum of Squares for Error)
- SST (Sum of Squares Total)
关系：SST（样本值和样本平均值之差的平方和）=SSM（预测值和平均值之差的平方和）+ SSE（预测值和样本值之差的平方和）。顺便一提，判定系数r2=SSMSST。
把SSM和SSE都除以σ2就能构造两个符合卡方分布的变量，相除之后消去不知道的方差。
最终得到统计量F=SSM/pSSE/n−p−1∼F(p,n−p−1)，在F分布函数里找拒绝域。

ANOVA

主要的零假设就是几个样本的均值相等，即没有显著性差异。为了验证这一点，用的基本就是上面显著性检验的方法。
在检验两组之间的差异的时候，就可以用t检验；而在多组的时候，虽然可以两两做t检验，但是不能替代原有的假设，所以用F检验。F检验时也是用组间之差的平方和比上组内之差的平方和。跟回归系数检验里面的F检验一个道理。
总之就是没有特别的方法，就是上面方法的综合运用。

1 0