【数据挖掘】【笔记】数据预处理之类别特征编码
来源:互联网 发布:网络上小泰迪什么意思 编辑:程序博客网 时间:2024/06/03 14:14
定义
类别特征:如['male', 'female']
等,模型不能直接识别的数据。处理的目的是将不能够定量处理的变量量化。
特别的比如星期[1, 2, ... , 7]
虽然是数字,但是数值之间没有大小顺序关系,需要视为类别特征。
处理
编码为模型可识别的数值型特征。
根据模型处理能力的不同,需要考虑单纯映射为数值或哑变量编码。(尤其是线型模型和SVMs with standard kernels, knn?)
sklearn.preprocessing.OneHotEncder
This estimator transforms each categorical feature with m possible values into m binary features, with only one active.
把所有可能取值转换为二进制表示,只含一个一的那种?
结果
- dt, rf, gb, ada等对于缩放,编码等不敏感,结果差异不大
- svr, knn结果缩放有提高,编码还会变差?
pandas.get_dummies
哑变量编码,适用于pd.DataFrame。
功能和OneHot类似,有额外的drop_first功能。
总结
- 哑变量编码对于sklearn中的sklearn模型的意义不大。尤其是基于树模型没有影响。
- 线性模型有影响
- svm影响不大,甚至默认参数时因为特征增加,表现下降
- knn不受影响(knn受冗余特征的影响较大)
为什么无关紧要的特征会损害KNN?
答:如上图,横轴为无关紧要特征,因为横轴特征的出现,将原本鲜明的聚类特征模糊化,纵轴权重被横轴稀释,从而得到错误的聚类结果。
阅读全文
0 0
- 【数据挖掘】【笔记】数据预处理之类别特征编码
- 预处理之类别特征编码
- 数据挖掘学习笔记2:数据预处理
- 【数据挖掘笔记三】数据预处理
- 数据挖掘中的特征预处理以及特征选择
- 数据挖掘预处理
- 《数据挖掘导论》学习笔记-特征创建
- 数据挖掘笔记-特征选择-开方检验
- 数据挖掘笔记-特征选择-信息增益
- 数据挖掘笔记-特征选择-互信息
- 数据挖掘笔记-特征选择-整体汇总
- 数据挖掘笔记-特征选择-遗传算法
- 数据挖掘学习笔记:数据特征化和数据区分
- 数据挖掘之数据预处理
- 数据挖掘3-数据预处理
- 数据挖掘之数据预处理
- 数据挖掘之数据预处理
- 数据挖掘之数据预处理
- 智能一代云平台(三十):逆向工程生成mybatis
- 【数据挖掘】【笔记】模型集成之ensembling guide
- GDT、LDT、IDTR、TR(转)
- java8 函数式接口(FunctionalInterface) [二]
- 正则化问题
- 【数据挖掘】【笔记】数据预处理之类别特征编码
- Python数据分析基础(一)——开发环境
- Android数据库GreenDAO3.2.2的使用(四、数据库升级)
- 【数据挖掘】【总结】项目总结之KDD2017
- 操作系统ucore lab7实验报告
- matplotlib(直方图,条形图,饼图,散点图)基础知识
- JZOJ3765. 【BJOI2014】想法
- 卷积码(Convolutional Code)
- 经典算法面试题 | 最少操作数使数组元素相等 I & II 大合集