【通俗向】假设检验(四):概率、随机、t检验

来源:互联网 发布:模拟人生4作弊码mac 编辑:程序博客网 时间:2024/06/18 16:26

T检验的应用条件是:

总体分布已知且为正态分布

在此补一个对正态分布本质的探讨。

现实过程中的离散分布,如果是随机二项分布的话,都会近似正态分布,举几个栗子:
1. 抛10次硬币,出现2次正面朝上的分布(要么朝上,要么朝下)
2. 找100个男人,假设平均身高180,身高的分布(每个人身高和均值的变化都是各种随机变量引起的,从而体现出随机性,故长不长都是50%)
3. 一份英语选择题试卷,蒙题然后得分的分布(对不对都是等概率事件)
4. 生产一个口径为100cm的大炮,最后实际的口径(随机性的误差,正负50%)

可以说,自然情况的正态分布的前提就是“随机”,在均值的上下,发生一件事情是随机的,那么不发生一件事情也是随机的,所以在很多次试验后就会体现出抛硬币的属性。

统计学有一个非常简单的定律:大数定律

也就是说,均匀的硬币,我们知道正反面出现的概率相等,但是扔一次,可能出现正面或反面,根本就是在【0,1】两个极端摇摆,但是我抛5次,可能出现2次正面,3次下面,如果我抛1000次,可能就接近500次了,这个很好理解。

那么,所谓的事情发生的概率,不过就是多次实验的结果

由此推论,在出现实验结果之前,我们是永远不会知道事物的真实概率

这个也很好理解,如果扔100次硬币,出现55次正面,45次反面,那么谁也不能说硬币就是50%的概率,而可能是55%,45%,直到实验了1000次,出现了510次正面,我们也可能说硬币是51%,也许是硬币真的不均匀也说不定。

按照推论一,有了推论二:我们认为事情发生的概率,和事物的真实概率可能会有偏差

紧接着推论三来了:所以我们认为事情发生的概率(认知概率),会围绕真实概率波动

因为我们永远也不会知道事物的真实概率(除非实验正无穷次),所以我们认为的概率用一个很大很大实验次数的概率代替(总体),而我们观测到的就是实验概率(样本)

所以结论就是:在真实概率永远不可知的情况下,样本概率随着总体概率波动

而事情本应该发生的次数,就是按照大数定律说的,比如我们实验了1亿次,发现硬币出现5000万次正面,5000万次反面,我们认为事情本应该发生的概率就是50%,如果我们抛100次硬币,本应该正面就是50次,然而实验出现了51次正,49次反,所以存在巧合。

继续身高的例子,如果全国1亿男性的身高均值是180cm,我抽取了100个人,其中可能50个人180cm,20个人181cm,20个人179cm,5个人185cm,5个人175cm ,也就是身高随着均值波动。这个波动的概率曲线就是正态分布。

1:单样本t检验案例
一个稳定流量的网站,日均PV为一千万,一周的PV分别为(1001,1200,1000,1500,900,500,890),问是否有异常?

2:双样本t检验的案例(常见的AB test原理)
一个稳定流量的网站,第一周的流量为(1001,1200,1000,1500,900,500,890),第二周改版后流量为(1200,1300,1500,1400,1000,400,900)问有没有差异?

3:配对样本t检验的案例
一个稳定流量的网站,假设有1000个双胞胎(行为思想均一样),给双胞胎里的老大看新网站,老二看旧网站,这样有1000组实验数据,看网站对用户(这两个人其实是一个人)的影响。

0 0
原创粉丝点击