特征选择/特征提取

来源:互联网 发布:数组是什么 编辑:程序博客网 时间:2024/05/02 08:48

特征提取:将原始数据转换成一组具有明显物理的特征,或者核的特征。
特征选择:从一组特征中选择一组具有统计意义的特征。也叫特征子集选择。
两者都能实现降维效果。但特征提取关注数据和特征的转换;特征选择关注特征在统计意义上的选择。
特征提取包括:PCA,SVD。
特征选择包括如下步骤:产生子集;评价函数;停止准则(一般跟评价函数相关,达到一个阈值即停止搜索);验证过程(在测试集上验证选择后的特征子集)
产生子集方法有:完全搜索(深度优先、广度优先、定向搜索、最优优先等)、启发式搜索(序列向前、序列向后等)、随机搜索(模拟退火、遗传算法)三种。
评价函数方法有:根据工作原理分为:筛选器、分类器。
相关性评价函数:特征子集包含的特征与分类相关性高;特征子集内部各特征相关度低。使用线性相关系数衡量向量之间的线性相关度。
距离评价函数:好的特征子集应该是同类样本之间的距离小,不同类样本之间距离大。
信息增益评价函数:好的特征子集应该是信息熵越小,即信息增益比以前大,特征子集效果越好。

注意:实际降维过程中,先使用特征提取,然后再使用特征选择,降低特征维度。

0 0
原创粉丝点击