统计分布总结

来源：互联网发布：购买小提琴知乎编辑：程序博客网时间：2024/05/18 18:55

统计分布总结

1 正态分布：

Alt text

不要一见到钟形曲线就判定为正态分布。中心极限定理的合理解释：
中心极限定理其实上出行了采样均值的分布，在采样量逐渐增加的情况下，原分布越来越不显著，平均化的作用下逐渐接近正态分布。形象的解释来：
对于一个浑浊不均的水塘，随机采样，最后混合在一起。这样得到的混合液可能的分布：当采样点数目较小时，是接近原采样的分布，这个很好理解。当采样点的数目越来越多时，方差越来越小，逐渐平均化，混合液体最后成为了正态分布。这个看似和大数定律矛盾。其实不然，如果用类似泰勒展开的想法来看。大数定律是说零阶估计，而中心极限定理是说的1阶估计。
也就是说任何一个分布都可以先做0阶估计和一阶估计。当然，这是不完全的，还有高阶估计。
这里需要注意的是，大数定律说样本很多的时候，均值等于期望，是0阶的。中心极限定理说样本本身如果是某个分布采样的平均，则这个样本趋于正态分布，这种表现高阶的方式需要慢慢体会，有没有递归的感觉？有没有泛函的感觉？有没有函数的函数的感觉？求平均对应到泰勒展开的求导，标准正态分布就对应到一阶导数，体现的是更高维度的稳定变化。所以中心极限定理表现的是分布的1阶性质。如果不断”求导“下去，泰勒展开最后导数可能为0，则体现了函数的阶性。而更高阶的分布的表现形式最后也可能趋向于0分布，体现了原分布的阶性。泰勒分布是对函数关系的拆解，同样分布是用概率表示的变量关系，自然也可以拆解，其实任何函数都可以用分布的形式表示，所以分布必然是可以拆解的。只是拆解的形式并不是那么显而易见。
下面这段说明比较清晰，可以结合理解：

著作权归作者所有。
商业转载请联系作者获得授权，非商业转载请注明出处。
作者：张雨萌
链接：http://www.zhihu.com/question/22913867/answer/34376453
来源：知乎

试图从另一个角度给出一个还算启发性的答案。题主学过微积分的泰勒展开吧，对一个连续可导的函数，在一点局部我们认为这个函数可以用线性函数来拟合，从而有这里面是零阶项，是一阶修正，是高阶小量。与此对应，我们可以试着对随机变量的进行“局部的泰勒展开”。假设是独立同分布的变量，那么根据大数定律和中心极限定理，我们有.其中期望对应，标准差对应一阶导，标准正态分布对应线性函数，概率意义下的高阶小量。通过这个类比我们可以这样理解大数定律和中心极限定理：1、大数定律和中心极限定理可以看做随机变量的零阶和一阶“泰勒展开”，其中大数定律是随机变量的“零阶估计”，中心极限定理是在大数定律成立下的“一阶导数”，在极限下高阶小量可忽略。
2、大数定律负责给出估计——期望，中心极限定理负责给出大数定律的估计的误差——标准差乘以标准正态分布。
3、通过泰勒展开我们可以对中心极限定理的应用范围有一个直观的估计。为了使泰勒展开成立，我们假设了高阶小量在取平均（除以后）是可以忽略的。为了使这一点成立，我们至少需要样本量和方差在同一量级上或者更小。
4、其实我们还可以进行更高阶的展开，貌似三阶展开对应的统计量叫做skewness，wiki上常用分布的词条都会给出这一数值。不过实际应用中中心极限定理已经足够，所以通常也就不需要了。

2 二项分布到泊松分布

描述单位时间内发生事件的个数的分布。
通过二项分布理解泊松分布：
二项分布描述n次试验发生某事件k次的概率：
展开：

上下同乘:

把拆成k个p连乘的形式放到左边分子上：

调整

因为时，所以

令
则
这就是我们熟悉的泊松公式，其中的物理意义是单位时间内事件发生的数量，也就是平均发生率，是一个常数。

3 指数分布

有了泊松分布就可以继续看指数分布了，指数分布的含义是无记忆事件发生的时间间隔的分布，泊松分布描述的实际是离散的分布；而指数分布则描述的是连续分布，因为时间间隔是连续的。
指数分布的形状是指数小于0的指数函数：

累计分布：

因为是无记忆的，所以间隔0发生的概率是原概率，之后间隔时间越长的概率越小。而其累计分布式间隔t时刻内有事件发生（不论多少次）的概率。所以就是

其实指数分布和泊松分布都是描述独立事件的发生分布模型，描述的维度不同。但都是考虑的时间的维度。是二项分布的延伸罢了。

4 T分布、卡方分布和F分布

卡方分布
含义：k个独立的标准正态分布变量的平方和服从自由度为k的卡方分布。常用于假设检验和置信区间的计算。

当我们对正态随机变量X随机地重复抽取n个数值，将每一个x值变换成标准正态变量，并对这k个新的变量分别取平方再求和之后，就得到一个服从自由度为k的卡方分布。
参数：自由度k。

随着自由度的增多，形状逐渐变平。

-T分布
从正态分布的样本中抽取样本的估计分布。因为原分布方差的不可知。通过卡方分布估计样本方差，再用样本方差构造T分布。有了样本分布，就可以确定某一个参数的置信区间，也就可以分析样本的p-value。

0 0