卡方分布分析与应用
来源:互联网 发布:流体力学 知乎 编辑:程序博客网 时间:2024/06/05 09:59
卡方检验(chi-square,记为
1. 卡方分布
卡方检验是基于卡方分布((chi-square distribution,
若k个独立的随机变量
为服从自由度为k的卡方分布,记为: X~
卡方分布的期望与方差分别为: E(
2. 卡方检验
其中,
这是卡方检验的原始公式,其中当fe越大,近似效果越好。显然fo与fe相差越大,卡方值就越大;fo与fe相差越小,卡方值就越小;因此它能够用来表示fo与fe相差的程度。根据这个公式,可认为卡方检验的一般问题是要检验名义型变量的实际观测次数和理论次数分布之间是否存在显著差异。
一般用卡方检验方法进行统计检验时,要求样本容量不宜太小,理论次数≥5,否则需要进行校正。如果个别单元格的理论次数小于5,处理方法有以下四种:
- a、单元格合并法;
- b、增加样本数;
- c、去除样本法;
- d、使用校正公式。当某一期望次数小于5时,应该利用校正公式计算卡方值。校正公式为:
3. 应用实例
3.1 独立性检验
独立性检验主要用于两个或两个以上因素多项分类的计数资料分析,也就是研究两类变量之间的关联性和依存性问题。如果两变量无关联即相互独立,说明对于其中一个变量而言,另一变量多项分类次数上的变化是在无差范围之内;如果两变量有关联即不独立,说明二者之间有交互作用存在。
独立性检验一般采用列联表的形式记录观察数据, 列联表是由两个以上的变量进行交叉分类的频数分布表,是用于提供基本调查结果的最常用形式,可以清楚地表示定类变量之间是否相互关联。又可具体分为:
(1)四格表的独立性检验:又称为2*2列联表的卡方检验。四格表资料的独立性检验用于进行两个率或两个构成比的比较,是列联表的一种最简单的形式。
a) 专用公式:
若四格表资料四个格子的频数分别为a,b,c,d,则四格表资料卡方检验的卡方值=n*(ad-bc)^2/(a+b)(c+d)(a+c)(b+d),自由度v=(行数-1)*(列数-1)b) 应用条件:
要求样本含量应大于40且每个格子中的理论频数不应小于5。当样本含量大于40但理论频数有小于5的情况时卡方值需要校正,即公式χ2=∑(|fo−fe|−0.5)2fe ,当样本含量小于40时只能用确切概率法计算概率。
(2)行x列表资料的独立性检验:又称为RxC列联表的卡方检验。行x列表资料的独立性检验用于多个率或多个构成比的比较。
a) 专用公式:
r行c列表资料卡方检验的卡方值=n*[(A11/n1n1+A12/n1n2+...+Arc/nrnc)−1 ]b) 应用条件:
要求每个格子中的理论频数T均大于5或1<T<5 的格子数不超过总格子数的1/5。当有T<1 或1<T<5 的格子较多时,可采用并行并列、删行删列、增大样本含量的办法使其符合行x列表资料卡方检验的应用条件。多个率的两两比较可采用行x列表分割的办法。
独立性检验的理论频数的计算公式为:fe=fxi∗fyiN
公式中,fxi表示横行各组实际频数的总和;fyi表示纵列各组实际频数的总和;N表示样本容量的总和;
例题:为了解男女在公共场所禁烟上的态度,随机调查100名男性和80名女性。男性中有58人赞成禁烟,42人不赞成;而女性中则有61人赞成,19人不赞成。那么,男女在公共场所禁烟的问题所持态度不同?
3.2 2、拟合性检验:
卡方检验能检验单个多项分类名义型变量各分类间的实际观测次数与理论次数之间是否一致的问题,这里的观测次数是根据样本数据得多的实计数,理论次数则是根据理论或经验得到的期望次数。这一类检验称为拟合性检验。其自由度通常为分类数减去1,理论次数通常根据某种经验或理论。
3.3 两种检验的异同:
从表面上看,拟合性检验和独立性检验不论在列联表的形式上,还是在计算卡方的公式上都是相同的,所以经常被笼统地称为卡方检验。但是两者还是存在差异的。
首先,两种检验抽取样本的方法不同。如果抽样是在各类别中分别进行,依照各类别分别计算其比例,属于拟合优度检验。如果抽样时并未事先分类,抽样后根据研究内容,把入选单位按两类变量进行分类,形成列联表,则是独立性检验。
其次,两种检验假设的内容有所差异。拟合优度检验的原假设通常是假设各类别总体比例等于某个期望概率,而独立性检验中原假设则假设两个变量之间独立。
最后,期望频数的计算不同。拟合优度检验是利用原假设中的期望概率,用观察频数乘以期望概率,直接得到期望频数。独立性检验中两个水平的联合概率是两个单独概率的乘积。
4. python 代码
import numpy as npfrom scipy.stats import chisquarec1 = np.array([[0.1, 1.1], [6.8, 7.1], [-3.5, -4.1], [2.0, 2.7], [4.1, 2.8], [3.1, 5.0], [-0.8, -1.3], [0.9, 1.2], [5.0, 6.4], [3.9, 4.0]])k = chisquare(c1)print(k)
- 卡方分布分析与应用
- 卡方分布与卡方检验
- 卡方分布
- 卡方分布
- 卡方分布
- 卡方分布
- Excel在统计分析中的应用—第六章—抽样分布-小样本的抽样分布(卡方分布(x^2分布))
- 正态分布/卡方分布/F分布/T分布
- 卡方分布与卡方检验------以及python的实现
- 连续分布——正态分布、卡方分布、t分布、F分布
- 正态分布/卡方分布/F分布/T分布/泊松分布
- 015 t分布、卡方分布、F分布习题及正态总体下常用分布
- 014 数理统计概念、卡方分布、t分布
- 漫步数理统计二十四——伽玛、卡方与贝塔分布
- 概率论——卡方分布
- 卡方分布(Chi-square Distribution)
- 卡方分布(Chi-squared Distribution)
- 卡方分布为什么叫"卡"方?
- 沉浸式
- 服务间调用方法:HttpClient
- java学习末尾部分
- C语言学习历程(六)几个有趣的循环和关键字的小程序
- [C]求1+2+3+...+100
- 卡方分布分析与应用
- python3如何解压缩.rar文件
- python2.7 pip 报错“Failed building wheel for …”解决办法
- HDOJ2108 Shape of HDU
- 【Spring Cloud】spring boot搭建+swagger-ui
- Nginx负载均衡多节点静态资源转发(单节点没有资源)处理
- leetcode--5. Longest Palindromic Substring
- HashMap详解
- 如何i自己创建利用百度搜索引擎的搜索框?