【ML--05】第五课 如何做特征工程和特征选择

来源:互联网 发布:手机淘宝链接复制在哪 编辑:程序博客网 时间:2024/05/24 00:01

一、如何做特征工程?
1.排序特征:基于7W原始数据,对数值特征排序,得到1045维排序特征
2. 离散特征:将排序特征区间化(等值区间化、等量区间化),比如采用等量区间化为1-10,得到1045维离散特征
3. 计数特征:统计每一行中,离散特征1-10的个数,得到10维计数特征
4. 类别特征编码:将93维类别特征用one-hot编码
5. 交叉特征:特征之间两两融合,x+y、x-y、x*y、x^2+y^2等,由于时间复杂度较高,暂时跳过

二、如何做特征选择?

多维特征一方面可能会导致维数灾难,另一方面很容易导致过拟合,因此需要做降维处理,常见的降维方法有奇异值分解SVD, PCA( PCA 提假设数据呈高斯分布),t-SNE(计算复杂度很高)。

除了降维,特征选择的方法很多:最大信息系数(MIC)、皮尔森相关系数(衡量变量间的线性相关性)、正则化方法(L1,L2)、基于模型的特征排序方法。比较高效的是最后一种方法,即基于学习模型的特征排序方法,这种方法有一个好处:模型学习的过程和特征选择的过程是同时进行的,因此我们采用这种方法。

基于决策树的算法(如 random forest,boosted tree)在模型训练完成后可以输出特征的重要性,我们用 xgboost 来做特征选择,xgboost 是 boosted tree 的一种实现,效率和精度都很高,在各类数据挖掘竞赛中被广泛使用。

学习资料
特征工程到底是什么?
https://www.zhihu.com/question/29316149

这里写图片描述