【通俗向】假设检验（四）：概率、随机、t检验

来源：互联网发布：模拟人生4作弊码mac 编辑：程序博客网时间：2024/06/18 16:26

T检验的应用条件是：

总体分布已知且为正态分布

在此补一个对正态分布本质的探讨。

现实过程中的离散分布，如果是随机二项分布的话，都会近似正态分布，举几个栗子：
1. 抛10次硬币，出现2次正面朝上的分布（要么朝上，要么朝下）
2. 找100个男人，假设平均身高180，身高的分布（每个人身高和均值的变化都是各种随机变量引起的，从而体现出随机性，故长不长都是50%）
3. 一份英语选择题试卷，蒙题然后得分的分布（对不对都是等概率事件）
4. 生产一个口径为100cm的大炮，最后实际的口径（随机性的误差，正负50%）
…

可以说，自然情况的正态分布的前提就是“随机”，在均值的上下，发生一件事情是随机的，那么不发生一件事情也是随机的，所以在很多次试验后就会体现出抛硬币的属性。

统计学有一个非常简单的定律：大数定律

也就是说，均匀的硬币，我们知道正反面出现的概率相等，但是扔一次，可能出现正面或反面，根本就是在【0,1】两个极端摇摆，但是我抛5次，可能出现2次正面，3次下面，如果我抛1000次，可能就接近500次了，这个很好理解。

那么，所谓的事情发生的概率，不过就是多次实验的结果

由此推论，在出现实验结果之前，我们是永远不会知道事物的真实概率

这个也很好理解，如果扔100次硬币，出现55次正面，45次反面，那么谁也不能说硬币就是50%的概率，而可能是55%，45%，直到实验了1000次，出现了510次正面，我们也可能说硬币是51%，也许是硬币真的不均匀也说不定。

按照推论一，有了推论二：我们认为事情发生的概率，和事物的真实概率可能会有偏差

紧接着推论三来了：所以我们认为事情发生的概率（认知概率），会围绕真实概率波动

因为我们永远也不会知道事物的真实概率（除非实验正无穷次），所以我们认为的概率用一个很大很大实验次数的概率代替（总体），而我们观测到的就是实验概率（样本）

所以结论就是：在真实概率永远不可知的情况下，样本概率随着总体概率波动

而事情本应该发生的次数，就是按照大数定律说的，比如我们实验了1亿次，发现硬币出现5000万次正面，5000万次反面，我们认为事情本应该发生的概率就是50%，如果我们抛100次硬币，本应该正面就是50次，然而实验出现了51次正，49次反，所以存在巧合。

继续身高的例子，如果全国1亿男性的身高均值是180cm，我抽取了100个人，其中可能50个人180cm，20个人181cm,20个人179cm，5个人185cm，5个人175cm ，也就是身高随着均值波动。这个波动的概率曲线就是正态分布。

1:单样本t检验案例
一个稳定流量的网站，日均PV为一千万，一周的PV分别为(1001,1200,1000,1500,900,500,890），问是否有异常？

2：双样本t检验的案例（常见的AB test原理）
一个稳定流量的网站，第一周的流量为(1001,1200,1000,1500,900,500,890），第二周改版后流量为（1200,1300,1500,1400,1000,400,900）问有没有差异？

3：配对样本t检验的案例
一个稳定流量的网站，假设有1000个双胞胎（行为思想均一样），给双胞胎里的老大看新网站，老二看旧网站，这样有1000组实验数据，看网站对用户（这两个人其实是一个人）的影响。

0 0