【数据挖掘】【笔记】数据预处理之类别特征编码

来源：互联网发布：网络上小泰迪什么意思编辑：程序博客网时间：2024/06/03 14:14

定义

类别特征：如['male', 'female']等，模型不能直接识别的数据。处理的目的是将不能够定量处理的变量量化。
特别的比如星期[1, 2, ... , 7]虽然是数字，但是数值之间没有大小顺序关系，需要视为类别特征。

编码为模型可识别的数值型特征。

根据模型处理能力的不同，需要考虑单纯映射为数值或哑变量编码。（尤其是线型模型和SVMs with standard kernels, knn?）

This estimator transforms each categorical feature with m possible values into m binary features, with only one active.

把所有可能取值转换为二进制表示，只含一个一的那种？

哑变量编码，适用于pd.DataFrame。

功能和OneHot类似，有额外的drop_first功能。

为什么无关紧要的特征会损害KNN？

答：如上图，横轴为无关紧要特征，因为横轴特征的出现，将原本鲜明的聚类特征模糊化，纵轴权重被横轴稀释，从而得到错误的聚类结果。

阅读全文

0 0