特征编码的一些技巧
来源:互联网 发布:淘宝谁家的ipad是正品 编辑:程序博客网 时间:2024/06/04 18:31
如何进行数字编码。 对于次序型特征,手工编码转换表,然后使用Pandas的map函数。对于名义型特征,可以使用sklean提供的LabelEncoder类。
buying_dict = {"low":0,"med":1,"high":2,"vhigh":3}car_num_encoded["buying"] = car_num_encoded["buying"].map(buying_dict)car_num_encoded["buying"].head(5)from sklearn.preprocessing import LabelEncoderbuying_encoder = LabelEncoder()encoded_buying = buying_encoder.fit_transform(car["buying"])buying_encoder.inverse_transform([0,1,2,3])
如何进行One-Hot编码。 有两个工具可以帮助我们方便地完成:pandas自带的
get_dummies
函数和sklearn实现的OneHotEncoder类。
car_onehot_encoded = pd.DataFrame()for col in ["buying","maint","doors","persons","lug_boot","safety"]: col_encoded = pd.get_dummies(car[col],prefix = col+"_") car_onehot_encoded = pd.concat([car_onehot_encoded, col_encoded],axis=1) car_onehot_encoded.head(5)
如何将数据集划分成训练集和测试集。 使用sklearn实现的
train_test_split
函数。如果要保持训练集和测试集样本类别的均衡,记得设置stratify
参数。
from sklearn.model_selection import train_test_splitX_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, stratify = y, random_state=42)
阅读全文
0 0
- 特征编码的一些技巧
- [scikit-learn] 特征二值化编码函数的一些坑
- 减少文件特征码的一些方法与技巧
- 编码中的一些优化技巧
- 技巧:关于取最大编码的一些思考
- Android编码时的一些实用小技巧
- 优秀团队的一些特征
- 指针一些“似是而非”的特征:
- html5的一些新特征
- 特征选择的一些方法
- 特征编码
- 编码的一些概念
- 编码的一些原则
- 编码的一些问题
- 编码的一些问题
- IOS_开发技巧_定位反地理编码的一些坑
- 平均数编码:针对高基数定性特征(类别特征)的数据预处理/特征工程
- PHP的一些技巧
- OpenGL结合水池模型的动态水面实战
- 搭建多个节点的hadoop集群环境(CDH)
- 根据选择状态展示对应数据列表
- Fragment全解析系列(一):那些年踩过的坑
- 关于FCN的数据集着色说明
- 特征编码的一些技巧
- 王坚博士专访 | 揭开国家 AI 创新平台“城市大脑”的神秘面纱
- @Controller和@RestController的区别
- CSS3图标图形生成技术个人攻略
- 1001.害死人不偿命的(3n+1)猜想 (15) c++
- C++ 指针
- jQuery添加时在5秒内只能操作一次
- 用栈实现简易计算器
- Day015