统计学9

来源:互联网 发布:数控切割机床软件 编辑:程序博客网 时间:2024/06/10 00:57

卡方分布介绍
这里写图片描述
从概率密度图中看出,如果只从标准正态分布中抽样一次,n=1,得到接近0的可能性非常大,接近0的数再平方后会更接近0,所以得到小数值的概率非常高。随着n增加,小数值的平方和会增大,曲线会向右偏移。凸起部分越往右,某种程度上曲线越对称。

这里写图片描述

卡方分布大体上是衡量离期望值的总误差,可以理解为每个平方和都具有卡方分布。

皮尔逊卡方检验
考虑购入一家餐厅,问老板店内每天顾客数的分布,给出下图,周一来10%的顾客,周二来10%的顾客等等,周日休息。
这里写图片描述
想检验老板给出的分布和观察到的数据是否吻合。
定义零假设:老板的分布是正确的
备择假设:老板的分布不正确
显著性水平5%

假设零假设正确,那么按照老板给的分布,每天的顾客数应该如下图,顾客总数是30+14+34+45+57+20=200,周一来200*10%=20的顾客,周二来200*10%=20的顾客等等
这里写图片描述

下面计算卡方统计量,
X2=(3020)220+(1420)220+(3430)230+(4540)240+(5760)260+(2030)230=11.44
卡方统计量是将观测值与预计值之差平方,再用预计值标准化,最后求和。

先求临界卡方统计量,α=0.05,自由度是6-1=5,因为知道了前5天的占比就能求出最后一天的占比。从表格得到临界卡方统计量为11.07。而我们得到11.44,其概率小于显著性水平,拒绝零假设。

列联表卡方检验
假设有一些人相信能够预防流感的草药,随即将人分为3组,流感季节中1组服用草药1,2组服用草药2,3组服用安慰剂(实际没有效果)。
下面的表叫列联表,可以看出1组120人,2组共140人,3组共120人。
这里写图片描述

定义零假设:草药没效果
备择假设:草药有效果(好转或者恶化)
显著性水平10%

假设零假设正确,求出每个单元格的预计结果,将观测值与预计值之差平方,再用预计值标准化,最后求和。草药没有效果的前提下,草药对患病人数无影响,我们能求出患病或者不患病的人数。
得到样本观测值是80/380=21%的人患病,79%人没有患病。则组1预计有120*21%=25.3人患病,94.7人未患病;组2预计有140*21%=29.4人患病,110.6人未患病;组3预计有120*21%=25.3人患病,94.7人未患病。
这里写图片描述

计算卡方统计量
X2=(2025.3)225.3+(3029.4)229.4+(3025.3)225.3+(10094.7)294.7+(110110.6)2110.6+(9094.7)294.7=2.53
列联表的自由度公式是(行数-1)(列数-1),这里是2行3列,自由度为(2-1)(3-1)=2。α=0.1。从表格得到临界卡方统计量为4.6。而我们得到2.53,其概率大于显著性水平,接受零假设。

0 0
原创粉丝点击