Feature Selection: A Data Perspective --阅读笔记2 传统数据的特征选择算法
来源:互联网 发布:飞思卡尔arm编程软件 编辑:程序博客网 时间:2024/06/05 09:39
论文的前一部分
- FEATURE SELECTION ON CONVENTIONAL DATA
- Similarity based Methods
- Laplacian Score
- SPEC
FEATURE SELECTION ON CONVENTIONAL DATA
在本节中,我们根据所使用的技术对传统数据的传统特征选择算法进行了广泛的分类:
- 基于相似性(Similarity based Methods);
- 基于信息理论();
- 基于稀疏学习;
- 基于统计;
- 其他方法。
Similarity based Methods
不同的特征选择算法利用各种类型的标准来定义特征的相关性。
基于相似性的方法:通过保存数据相似性的能力来评估特征的重要性。
- 对于有监督的特征选择,可以从标签信息导出数据相似性;
- 而对于无监督的特征选择方法,大多数方法利用不同的距离度量来获得数据相似性。
给定一个具有
其中
公式(1)表明我们将从S中选择一个特征子集,以便它们能够很好地保留在
Laplacian Score
拉普拉斯分数是一种无监督的特征选择算法,它选择最能保留数据流形结构的特征。 它由三个阶段组成。
- 首先,它构造了亲和度矩阵
S(i,j) , 如果xi 是xj 的P 最近邻,则S(i,j)=e−∥xi−xj∥22t ;否则S(i,j)=0 。 - 构造对角矩阵
D ,D(i,i)=∑nj=1S(i,j) ; 拉普拉斯矩阵L ,L=D−S . - 最后对于每个特征
fi 的拉普拉斯分数如下:
由于拉普拉斯分数单独评估每个特征,选择
其中
SPEC
SPEC是拉普拉斯分数的一个扩展,适用于有监督和无监督两种情况。例如,在无监督情景下,数据相似性由RBF kernel测量; 而在监督情景下,数据相似性可以由以下公式定义:
其中
SPEC的基本思想与Laplacian Score相似:与数据流形结构一致的特征应该将相似的值分配给彼此相邻的实例。
在SPEC中,特征相关性通过三个不同的标准来衡量:
在上述公式中,
- Feature Selection: A Data Perspective --阅读笔记2 传统数据的特征选择算法
- Feature Selection: A Data Perspective --阅读笔记1 特征选择的概述
- 总结 特征选择(feature selection)算法笔记
- 总结 特征选择(feature selection)算法笔记
- 特征选择Feature Selection
- 特征选择(feature selection)
- 特征选择(Feature Selection)
- Feature Selection(特征选择)
- 特征选择(feature selection)
- 机器学习的特征选择(feature selection)
- 1.13. 特征选择(Feature selection)
- the steps that may be taken to solve a feature selection problem:特征选择的步骤
- Unsupervised Personalized Feature Selection--阅读笔记
- R语言的特征选择(Feature Selection)包:Boruta和caret
- RELIEF Feature Selection(RELIEF特征选择) Python实现
- RELIEFF Feature Selection(RELIEFF特征选择) Python实现
- 斯坦福大学机器学习——特征选择(Feature selection)
- sklearn-学习:Dimensionality reduction(降维)-(feature selection)特征选择
- android 面试笔记二
- oracle轻量级客户端链接plsql
- java编译时,报错误: 编码GBK的不可映射字符
- Ubuntu文件系统损坏修复
- 最近看的目标检测
- Feature Selection: A Data Perspective --阅读笔记2 传统数据的特征选择算法
- MongoDB安装
- MongoDB安装
- Java String.split()用法小结
- 欢迎使用CSDN-markdown编辑器
- Java多线程工具包java.util.concurrent---ReadWriteLock
- Qt中按照逆时针给一组坐标排序
- win7删除不了打印机该怎么办?win7删除打印机后刷新又出来的解决方法
- Ubuntu16.04 安装tensorflow+Fast-RCNN+cuda+cudnn过程