Sklearn库学习笔记1 Feature_Engineering之预处理篇
来源:互联网 发布:怎样申请做淘宝模特 编辑:程序博客网 时间:2024/06/03 13:25
一、预处理
1. Binarizer 二值化处理
from sklearn.preprocessing import Binarizerimport numpy as np'''数据二值化处理:适用场景:泊松分布,文本数据操作特点:返回对于数值特征的阈值判断'''x_train = np.array([[1,2,-1], [2, 3, -2], [1, -1 ,1]])bina = Binarizer(threshold=1.0, copy=True)bina.fit(x_train)bina.transform(x_train)
2. Imputer 填补缺失值
from sklearn.preprocessing import Imputerimport numpy as np '''缺失值计算:填补方式: “mean”, "median", "most_frequent"'''x_train = np.array([[1,np.nan,-1], [2, 3, -2], [1, -1 ,1]])imp = Imputer(missing_values='NaN', strategy='mean', axis=1, verbose=0, copy=True)imp.fit(x_train)imp.transform(x_train)
3. Normalizer 归一化
from sklearn.preprocessing import Normalizerimport numpy as np '''归一化处理数据:适用场景: 比如计算两个L2归一化后的TF-IDF向量内积实际上是计算它们的余弦相似度,余弦值越接近于1,它们的方向更加吻合,则越相似。'''x_train = np.array([[1,-5,-1], [2, 3, -2], [1, -1 ,1]])imp = Normalizer(norm='l2', copy=True)'''正则化方式: 'l1' ,'l2', 'max''''imp.fit(x_train)imp.transform(x_train)
4. OneHotEncoder独热编码
from sklearn.preprocessing import OneHotEncoderimport numpy as np '''独热编码:对类别型特征编码,one-of-K的形式 '''x_train = np.array([1,3,4]).reshape(-1, 1)onehot = OneHotEncoder(n_values='auto', categorical_features='all', dtype=np.float64, sparse=True, handle_unknown='error')'''n_values: 每个特征的数量categorical_features: 需要编码的特征名dtype: 数据类型sparse: 是否返回稀疏矩阵handle_unknown: 遇到错误如何处理'''onehot.fit(x_train)print onehot.transform(x_train).toarray()
5. StandardScaler 和 MinMaxScaler标准化
from sklearn.preprocessing import StandardScalerfrom sklearn.preprocessing import MinMaxScalerimport numpy as np '''StandardScaler 数据标准化: 适用场景:比如PCA, SVM的RBF核等 注意事项:不能分别对训练集和测试集训练与转换,应该在训练集上训练,在测试集在转化,如下所示: X_train = scaler.fit_transform(X_train) X_test = scaler.transform(X_test)'''x_train = np.array([[1,2,-1], [2, 3, -2], [1, -1, 1]])stan = StandardScaler(copy=True, with_mean=True, with_std=True)stan.fit(x_train)stan.transform(x_train)maxmin = MinMaxScaler(feature_range=(0, 1), copy=True)maxmin.fit(x_train)maxmin.transform(x_train)#feature_range: 压缩范围
6. RobustScaler鲁棒性缩放
RobustScaler(with_centering=True, with_scaling=True, quantile_range=(25.0, 75.0), copy=True)
阅读全文
0 0
- Sklearn库学习笔记1 Feature_Engineering之预处理篇
- 从sklearn.preprocessing, sklearn.feature_selection学习特征工程之预处理
- python 学习笔记二之sklearn 库
- sklearn数据预处理类库学习
- python之sklearn学习笔记
- 学习笔记之预处理
- Python机器学习库SKLearn:数据集转换之预处理数据
- sklearn学习笔记(一)——数据预处理 sklearn.preprocessing
- 机器学习-->sklearn数据预处理
- C语言学习笔记之预处理篇
- 【数据平台】sklearn库特征工程之数据预处理
- sklearn学习笔记之Kmeans聚类
- sklearn 数据预处理1: StandardScaler
- sklearn库学习笔记1——preprocessing库
- sklearn预处理
- sklearn学习记录二:数据预处理
- 机器学习-sklearn模块数据预处理
- sklearn 学习笔记一:开始学习sklearn
- BZOJ4538:[Hnoi2016]网络 (整体二分+Lca+树状数组/线段树+路径交/树链剖分+Heap)
- 为什么L1稀疏L2平滑?
- MarkDown常用语法
- 文件上传示例(上传到amazon s3服务器)
- Android系统中如何添加权限-----以TP为例
- Sklearn库学习笔记1 Feature_Engineering之预处理篇
- 1---Python初体验之生成随机数组并写入文件
- swift-Extension(扩展)
- 判断一个字符串是否经过了base64_encode加密
- Android监听软键盘弹起隐藏
- 可执行文件opencv_traincascade的源码解析
- 剑指Offer—46—孩子们的游戏(圆圈中最后剩下的数)
- Unity3D的Time类
- View的事件源码解析