【ML--05】第五课 如何做特征工程和特征选择
来源:互联网 发布:手机淘宝链接复制在哪 编辑:程序博客网 时间:2024/05/24 00:01
一、如何做特征工程?
1.排序特征:基于7W原始数据,对数值特征排序,得到1045维排序特征
2. 离散特征:将排序特征区间化(等值区间化、等量区间化),比如采用等量区间化为1-10,得到1045维离散特征
3. 计数特征:统计每一行中,离散特征1-10的个数,得到10维计数特征
4. 类别特征编码:将93维类别特征用one-hot编码
5. 交叉特征:特征之间两两融合,x+y、x-y、x*y、x^2+y^2等,由于时间复杂度较高,暂时跳过
二、如何做特征选择?
多维特征一方面可能会导致维数灾难,另一方面很容易导致过拟合,因此需要做降维处理,常见的降维方法有奇异值分解SVD, PCA( PCA 提假设数据呈高斯分布),t-SNE(计算复杂度很高)。
除了降维,特征选择的方法很多:最大信息系数(MIC)、皮尔森相关系数(衡量变量间的线性相关性)、正则化方法(L1,L2)、基于模型的特征排序方法。比较高效的是最后一种方法,即基于学习模型的特征排序方法,这种方法有一个好处:模型学习的过程和特征选择的过程是同时进行的,因此我们采用这种方法。
基于决策树的算法(如 random forest,boosted tree)在模型训练完成后可以输出特征的重要性,我们用 xgboost 来做特征选择,xgboost 是 boosted tree 的一种实现,效率和精度都很高,在各类数据挖掘竞赛中被广泛使用。
学习资料
特征工程到底是什么?
https://www.zhihu.com/question/29316149
阅读全文
1 0
- 【ML--05】第五课 如何做特征工程和特征选择
- 【特征工程】特征选择与特征学习
- 【特征工程】特征选择与特征学习
- 深度学习如何做特征工程?
- 机器学习:特征工程之特征选择和学习
- libsvm中如何做特征选择
- libsvm中如何做特征选择
- 工程中特征选择
- 特征工程怎么做
- 特征工程怎么做
- 特征工程怎么做
- 特征选择和特征理解
- ML—F值与特征选择
- ML—常见的特征选择方法
- 机器学习 特征工程之特征选择
- 机器学习 特征工程之特征选择
- 特征工程(4)--特征选择
- 《特征工程三部曲》之二:特征选择
- Unity控制物体透明度的探索(包含递归遍历的方法)
- Eclipse 调试出现source not found问题
- jQuery使用插件dotdotdot.js实现段落溢出显示省略号
- 奥威Power-BI 快消行业BI解决方案——分大区分品种销售分析
- int set_opt(int fd,int nSpeed, int nBits, char nEvent, int nStop)
- 【ML--05】第五课 如何做特征工程和特征选择
- jQuery: $.extend()和$.fn.extend()的区别
- Nutch教程——准备篇 by 逼格DATA
- 谷歌浏览器Timeline用法详解 [复制链接]
- html-meta标签常用方法
- python中匿名函数
- matlab的一些语法知识
- 支付宝前端团队详解基于Node.js Web框架Chair
- Swift多线程之Operation:按优先级加载图片