特征选择-卡方检验用于特征选择
来源:互联网 发布:服务器对应默认端口 编辑:程序博客网 时间:2024/05/22 15:10
卡方分布
若n个相互独立的随机变量
图片引自百度百科
卡方分布是由正态分布构造而成的一个新的分布,当自由度n很大时,
均值:
方差:
性质:
χ2 分布在第一象限内,卡方值都是正值,呈正偏态(右偏态),随着参数 n 的增大,χ2 分布趋近于正态分布;卡方分布密度曲线下的面积都是1。χ2 分布的均值与方差可以看出,随着自由度n的增大,χ2 分布向正无穷方向延伸(因为均值n越来越大),分布曲线也越来越低阔(因为方差2n越来越大)。- 不同的自由度决定不同的卡方分布,自由度越小,分布越偏斜。
若
χ2(n1) 、χ2(n2) 互相独立,则:χ2(n1)+χ2(n2) 服从自由度为n1+n2 的χ2 分布。卡方分布临界值表:
以上内容和图片均引自百度百科:卡方分布
后续在用卡方检验做特征选择的时候,会利用到自由度为1、
假设检验
卡方检验属于假设检验,我们先对假设检验的一些概念做些定义。以下内容均来自《概率论与数理统计(陈希孺)》第五章-假设检验。
功效函数:
设总体分布包含若干个未知参数
两类错误
在检验一个假设
- 第一类错误:
H0 正确,但是被否定了 第二类错误:
H0 不正确,但是被接受了犯第一类错误的概率:
犯第二类错误的概率:α1Φ(θ1,…,θk)={βΦ(θ1,…,θk),当(theta1,…,θk)∈H00, 当(theta1,…,θk)∈H1 α2Φ(θ1,…,θk)={0, 当(theta1,…,θk)∈H01−βΦ(θ1,…,θk),当(theta1,…,θk)∈H1
通常先保证第一类错误的概率不超过某指定值α (α 通常很小,最常用的是α=0.05 和0.01),再在此限制下,使第二类错误的概率尽可能的小。
检验水平
设
这是“固定(或限制)第一类错误概率的原则”,是目前假设检验理论中一种流行的做法。这种做法并没有考虑第二类错误的情况。以参数检验为例,对于第二类错误,往往要选定一个在拒绝域里的参数值(与检验值有较小的距离),来使第二类错误尽量小,计算得到一个应有的样本量,而对于像选取的参数值这样离检验值接近的参数值,往往无需关心是否接受
拟合优度检验和卡方检验法
我们这里不说假设检验的详细内容了,有兴趣的可以看下《概率论与数理统计(陈希孺)》,下面直接进入本章内容的主题方法:卡方检验(
卡方检验基本方法
设一总体X服从分布:
先设想总体X的数量n足够大,按大数定理,若以
表中最后两行的差异越小,则
- 理论值−经验值:反映差异
(理论值−经验值)2 :排除1.中存在正负抵消的情况。(理论值−经验值)2/理论值 :针对不同“类”下值域差异过大,将差异转换到同种尺度内。
定理:如果原假设
此定理的证明在书中也没有给出,不过能看出来,Z并不是完全符合卡方分布,而是近似卡方分布,而且最好样本量足够大。
用这个定理就可以对
根据前面介绍,我们需要先计算功效函数(
由图可知:
所以
结合
我们就可以得到
注意:由(公式1)可以得到下面的公式2,在后面拟合优化部分会用到
当
关于只处理第一类错误的理解:
书中有先处理第一类错误,然后处理第二类错误:
拟合优度
上面是一种“非此即彼”的解决方式。下面我们介绍一种更有弹性的方法。
假定从一组具体数据中算出的Z值为
列联表
在实际使用中经常用到列联表来处理。
下表显示了一个
又
在这个模型中,
对
后续的计算就和上面的一样了。
卡方检验用于特征选择
例1:假设我们想从一堆特征中筛选出于教育支出(多、少)相关的特征,我们利用上面讲到的两种检验方法来处理(一个是“非此即彼”、一个是“拟合优度”),假如涉及的特征有收入水平、教育水平等等,下面我们以收入水平(高、中、低)为例,按照上面分析,要保证第一类错误影响最小的原则,也就是设定原假设H_0
按上面(公式4)计算统计量Z_0
- 非此即彼
查卡方表可知\chi_2^2(0.05)=5.99χ22(0.05)=5.99 ,而Z_0>\chi_2^2(0.05)Z0>χ22(0.05) ,因此拒绝原假设H_0H0 ,认为收入水平和教育支出相关。 - 拟合优度
查卡方表可知拟合优度p(Z0)=P(Z≥Z0 | H0)≈0.025 ,书中说查表得到结果为0.0207,不知道怎么查出来的。拟合优度值很低,说明可以拒绝原假设H0 ,认为收入水平和教育支出相关。
例2:例1中的特征属性有多个值,而我们现实中经常会遇到只有0、1这种情况的属性,例如看“足球”和媒体类别是否相关,假设有三种媒体类别:体育、历史、社会。我们可以像下面两种方式构建列联表:
或者:
构建列联表的方式可以按照各位的需求构建,但计算方式都是按照上面的方法来的。
- 特征选择-卡方检验用于特征选择
- 卡方检验用于特征选择
- 卡方检验用于特征选择
- 卡方检验用于特征选择
- 卡方检验用于特征选择(一)
- 卡方检验用于特征选择(二)
- 特征选择-卡方检验
- 卡方检验特征选择
- 特征选择算法之卡方检验
- 特征选择之卡方检验
- 卡方检验文本特征选择
- 卡方检验文本特征选择
- 卡方检验文本特征选择
- ChiSqSelector-卡方检验选择特征
- 特征选择算法之卡方检验
- 特征选择算法之卡方检验(转载)
- 文本特征选择算法:卡方检验和信息增益
- 特征选择方法:卡方检验和信息增益
- book_effective Python_59个有效办法(一)
- 双向dfs求强连通分量
- Microsoft – WCF/OData – Deploying Services to IIS
- Android初学者的简单登录,利用外形资源和selector选择器
- 好玩的分词——python jieba分词模块的基本用法
- 特征选择-卡方检验用于特征选择
- 基于GUI的AWT,Swing写的一个餐厅点菜系统
- Golang -- 互斥锁
- 217. Contains Duplicate(疑问待解答)
- mysql之 [ERROR] InnoDB: Unable to lock ./ibdata1, error: 11
- 反反爬虫------设置scrapy随机user_agents
- 二叉树的简单应用--表达式树
- 接触Android
- 【有感】聆听哈佛幸福课 (上)