weka: FCBFSearch

来源:互联网 发布:wk是网络传销 编辑:程序博客网 时间:2024/06/08 05:01

paper:

Feature Selection for High-Dimensional Data: A Fast Correlation-Based Filter Solution.

 

Feature selection method based on correlation measure and relevance redundancy analysis.

Use in conjunction with an attribute set evaluator

通过对特征集的相关性 以及 冗余分析做评价

 

//TODO 不明白

  // m_attributeList   属性的索引, m_attributeList[2]表示待测属性集中的第2个属性在原数据中的索引位置。
  // 简单起见, 可以认为m_attributeList[i] == i. 假设5个属性, index分别为0    1     2   3     4
  // m_attributeMerit  属性的评价分. 假设分别为                                         2.1 2.3  1  1.2   0.5
  // rank 评价分升序排列时的索引值。 即                                                     4    2     3   0     1
  /*
  bestToWorst: 其实就是按merit从高到底排列其index
  1 2.3
  0 2.1
  3 1.2
  2 1
  4 0.5
  */

 

 /*
      bestToWorst: 其实就是按merit从高到底排列其index
      1 2.3
      0 2.1
      3 1.2
      2 1
      4 0.5
     
      m_rankedFCBF[dimension.length][4]
      1 2.3  -1
      0 2.1  -1
      3 1.2  -1
      2 1    -1
      4 0.5  -1
 */

FCBFElimination 就是

for(i = 0; i<dimension.length; i++)

{

     if(m_rankedFCBF[2] != 1)

     {++i; continue;}  //

    for(j=i+1; j<dimension.length; j++)

    {

          if(m_rankedFCBF[i][1] < SUij)  //则置 m_rankedFCBF[j][2]=m_rankedFCBF[i][0]

          {

                m_rankedFCBF[j][2] = m_rankedFCBF[i][0];
                m_rankedFCBF[j][3] = SUij;

          }

    }

}

然后保留m_rankedFCBF[i][0] == m_rankedFCBF[i][2]的属性

 

 

具体算法逻辑如下:

 

获取最优特征集:

 

 

rankedAttributes:

  

 

 

FCBFElimination:

原创粉丝点击