机器学习中的特征选择

来源：互联网发布：linux卸载软件包编辑：程序博客网时间：2024/06/05 05:50

特征选择是一个重要的数据预处理过程，获得数据之后要先进行特征选择然后再训练模型。主要作用：1、降维 2、去除不相关特征。

特征选择方法包含：子集搜索和子集评价两个问题

子集搜索包含前向搜索、后向搜索、双向搜索等。

子集评价方法包含：信息增益，交叉熵，相关性，余弦相似度等评级准则。

常见的特征选择方法：过滤式、包裹式、嵌入式。

一、过滤式
变量排序就是一种典型的过滤式方法，该方法独立于后续要使用的模型。这种方法的关键就是找到一种能度量特征重要性的方法，比如pearson相关系数，信息论理论中的互信息等。《机器学习》（Peter Flach）中还提到了卡方统计量，但未作详细介绍。变量排序方法的主要问题在于忽略了特征之间可能存在的相互依赖关系。一方面，即便排序靠前的特征，如果相关性较强，则引入了冗余的特征；另一方面，排序靠后的特征，虽然独立来看作用不明显，但可能与其它特征组合起来，就有很好的预测作用，如此就损失了有价值的特征。

二、包裹式
这类方法的核心思想在于，给定了某种模型，及预测效果评价的方法，然后针对特征空间中的不同子集，计算每个子集的预测效果，效果最好的，即作为最终被挑选出来的特征子集。注意集合的子集是一个指数的量级，故此类方法计算量较大。故而针对如何高效搜索特征空间子集，就产生了不同的算法。其中有一种简单有效的方法叫贪婪搜索策略，包括前向选择与后向删除。在前向选择方法中，初始化一个空的特征集合，逐步向其中添加新的特征，如果该特征能提高预测效果，即得以保留，否则就扔掉。后向删除即是说从所有特征构成的集合开始，逐步删除特征，只要删除后模型预测效果提升，即说明删除动作有效，否则就还是保留原特征。要注意到，包裹式方法要求针对每一个特征子集重新训练模型，因此计算量还是较大的。

三、嵌入式
嵌入式方法将特征选择融合在模型训练的过程中，比如决策树在分枝的过程中，就是使用的嵌入式特征选择方法，其内在还是根据某个度量指标对特征进行排序。 L1正则化（Lasso，注意L2邻回归并不会降低维度）

阅读全文

0 0