特征选择之 FCBF算法

来源:互联网 发布:淘宝助手导入csv失败 编辑:程序博客网 时间:2024/04/28 05:43

FCBF算法介绍

具体详述可见,提出该算法的论文 Feature Selection for High-Dimensional Data: A Fast Correlation-Based Filter Solution

FCBF算法: 全称 Fast Correlation-Basd Filter Solution, 是一种快速过滤的特征选择算法,一种基于symmetrical uncertainty(SU)的方法。算法步骤如下:
1. 计算每个特征Fi与目标C之间的相关性SUFi,c,计算公式如下:

SU(X,Y)=2IG(X,Y)E(X)+E(Y)

IG(X,Y)=E(Y)E(X|Y) ,E(Y)=ci=1P(Yi)log2(P(Yi))
E(X|Y)=i=1CXP(Xi)j=1cP(Yj|Xi)log2(P(Yj|Xi))

其中IG(X,Y)就代表信息增益,E(X)代表信息熵。P(Xi)代表X的值取i个时的概率。
2. 然后将相关度大于预先设好的阈值δ的特征选择出来。
3. 将SUFi,c按从大到小的顺序排列,并依次计算每个特征Fi与排序中小于SUFi,c的其他所有特征Fj之间的相关性SUFi,Fj
   if   SUFi,c>SUFj,c  then compute  SUFi,Fj
4. 删除掉SUi,j大于SUj,c的特征Fj,最后得到特征子集。
   if   SUFi,Fj>SUFj,c  then delete feature  Fj

该方法的优势在于一对冗余特征Fi,Fj中,保留与目标C相关性更大的特征Fi,剔除相关性更小的特征,同时利用相关度更高的特征Fi去筛选其他特征,也减少了时间复杂度,因此是一种快速过滤特征选择算法。

0 0
原创粉丝点击