Scikit-learn Preprocessing 预处理
来源:互联网 发布:淘宝买东西返现的app 编辑:程序博客网 时间:2024/06/05 07:52
本文主要是对照scikit-learn的preprocessing章节结合代码简单的回顾下预处理技术的几种方法,主要包括标准化、数据最大最小缩放处理、正则化、特征二值化和数据缺失值处理。内容比较简单,仅供参考!
首先来回顾一下下面要用到的基本知识。
一、知识回顾
均值公式:
方差公式:
0-范数,向量中非零元素的个数。
1-范数:
2-范数:
p-范数的计算公式:
数据标准化:当单个特征的样本取值相差甚大或明显不遵从高斯正态分布时,标准化表现的效果较差。实际操作中,经常忽略特征数据的分布形状,移除每个特征均值,划分离散特征的标准差,从而等级化,进而实现数据中心化。
二、标准化(Standardization),或者去除均值和方差进行缩放
公式为:(X-X_mean)/X_std 计算时对每个属性/每列分别进行.
将数据按其属性(按列进行)减去其均值,然后除以其方差。最后得到的结果是,对每个属性/每列来说所有数据都聚集在0附近,方差值为1。
首先说明下sklearn中preprocessing库里面的scale函数使用方法:
sklearn.preprocessing.scale(X, axis=0, with_mean=True,with_std=True,copy=True)
根据参数的不同,可以沿任意轴标准化数据集。
参数解释:
- X:数组或者矩阵
- axis:int类型,初始值为0,axis用来计算均值 means 和标准方差 standard deviations. 如果是0,则单独的标准化每个特征(列),如果是1,则标准化每个观测样本(行)。
- with_mean: boolean类型,默认为True,表示将数据均值规范到0
- with_std: boolean类型,默认为True,表示将数据方差规范到1
一个简单的例子
假设现在我构造一个数据集X,然后想要将其标准化。下面使用不同的方法来标准化X:
方法一:使用sklearn.preprocessing.scale()函数
方法说明:
- X.mean(axis=0)用来计算数据X每个特征的均值;
- X.std(axis=0)用来计算数据X每个特征的方差;
- preprocessing.scale(X)直接标准化数据X。
将代码整理到一个文件中:
from sklearn import preprocessing import numpy as npX = np.array([[ 1., -1., 2.], [ 2., 0., 0.], [ 0., 1., -1.]])# calculate meanX_mean = X.mean(axis=0)# calculate variance X_std = X.std(axis=0)# standardize XX1 = (X-X_mean)/X_std# use function preprocessing.scale to standardize XX_scale = preprocessing.scale(X)
最后X_scale的值和X1的值是一样的,前面是单独的使用数学公式来计算,主要是为了形成一个对比,能够更好的理解scale()方法。
方法2:sklearn.preprocessing.StandardScaler类
该方法也可以对数据X进行标准化处理,实例如下:
from sklearn import preprocessing import numpy as npX = np.array([[ 1., -1., 2.], [ 2., 0., 0.], [ 0., 1., -1.]])scaler = preprocessing.StandardScaler()X_scaled = scaler.fit_transform(X)
这两个方法得到最后的结果都是一样的。
三、将特征的取值缩小到一个范围(如0到1)
除了上述介绍的方法之外,另一种常用的方法是将属性缩放到一个指定的最大值和最小值(通常是1-0)之间,这可以通过preprocessing.MinMaxScaler类来实现。
使用这种方法的目的包括:
- 1、对于方差非常小的属性可以增强其稳定性;
- 2、维持稀疏矩阵中为0的条目。
下面将数据缩至0-1之间,采用MinMaxScaler函数
from sklearn import preprocessing import numpy as npX = np.array([[ 1., -1., 2.], [ 2., 0., 0.], [ 0., 1., -1.]])min_max_scaler = preprocessing.MinMaxScaler()X_minMax = min_max_scaler.fit_transform(X)
最后输出:
array([[ 0.5 , 0. , 1. ], [ 1. , 0.5 , 0.33333333], [ 0. , 1. , 0. ]])
测试用例:
>>> X_test = np.array([[ -3., -1., 4.]])>>> X_test_minmax = min_max_scaler.transform(X_test)>>> X_test_minmaxarray([[-1.5 , 0. , 1.66666667]])
注意:这些变换都是对列进行处理。
当然,在构造类对象的时候也可以直接指定最大最小值的范围:feature_range=(min, max),此时应用的公式变为:
X_std=(X-X.min(axis=0))/(X.max(axis=0)-X.min(axis=0))X_minmax=X_std/(X.max(axis=0)-X.min(axis=0))+X.min(axis=0))
四、正则化(Normalization)
正则化的过程是将每个样本缩放到单位范数(每个样本的范数为1),如果要使用如二次型(点积)或者其它核方法计算两个样本之间的相似性这个方法会很有用。
该方法是文本分类和聚类分析中经常使用的向量空间模型(Vector Space Model)的基础.
Normalization主要思想是对每个样本计算其p-范数,然后对该样本中每个元素除以该范数,这样处理的结果是使得每个处理后样本的p-范数(l1-norm,l2-norm)等于1。
方法1:使用sklearn.preprocessing.normalize()函数
>>> X = [[ 1., -1., 2.],... [ 2., 0., 0.],... [ 0., 1., -1.]]>>> X_normalized = preprocessing.normalize(X, norm='l2')>>> X_normalized array([[ 0.40..., -0.40..., 0.81...], [ 1. ..., 0. ..., 0. ...], [ 0. ..., 0.70..., -0.70...]])
方法2:sklearn.preprocessing.StandardScaler类
>>> normalizer = preprocessing.Normalizer().fit(X) # fit does nothing>>> normalizerNormalizer(copy=True, norm='l2')
然后使用正则化实例来转换样本向量:
>>> normalizer.transform(X) array([[ 0.40..., -0.40..., 0.81...], [ 1. ..., 0. ..., 0. ...], [ 0. ..., 0.70..., -0.70...]])>>> normalizer.transform([[-1., 1., 0.]]) array([[-0.70..., 0.70..., 0. ...]])
两种方法都可以,效果是一样的。
五、二值化(Binarization)
特征的二值化主要是为了将数据特征转变成boolean变量。在sklearn中,sklearn.preprocessing.Binarizer函数可以实现这一功能。实例如下:
>>> X = [[ 1., -1., 2.],... [ 2., 0., 0.],... [ 0., 1., -1.]]>>> binarizer = preprocessing.Binarizer().fit(X) # fit does nothing>>> binarizerBinarizer(copy=True, threshold=0.0)>>> binarizer.transform(X)array([[ 1., 0., 1.], [ 1., 0., 0.], [ 0., 1., 0.]])
Binarizer函数也可以设定一个阈值,结果数据值大于阈值的为1,小于阈值的为0,实例代码如下:
>>> binarizer = preprocessing.Binarizer(threshold=1.1)>>> binarizer.transform(X)array([[ 0., 0., 1.], [ 1., 0., 0.], [ 0., 0., 0.]])
六、缺失值处理
由于不同的原因,许多现实中的数据集都包含有缺失值,要么是空白的,要么使用NaNs或者其它的符号替代。这些数据无法直接使用scikit-learn分类器直接训练,所以需要进行处理。幸运地是,sklearn中的Imputer类提供了一些基本的方法来处理缺失值,如使用均值、中位值或者缺失值所在列中频繁出现的值来替换。
下面是使用均值来处理的实例:
>>> import numpy as np>>> from sklearn.preprocessing import Imputer>>> imp = Imputer(missing_values='NaN', strategy='mean', axis=0)>>> imp.fit([[1, 2], [np.nan, 3], [7, 6]])Imputer(axis=0, copy=True, missing_values='NaN', strategy='mean', verbose=0)>>> X = [[np.nan, 2], [6, np.nan], [7, 6]]>>> print(imp.transform(X)) [[ 4. 2. ] [ 6. 3.666...] [ 7. 6. ]]
Imputer类同样支持稀疏矩阵:
>>> import scipy.sparse as sp>>> X = sp.csc_matrix([[1, 2], [0, 3], [7, 6]])>>> imp = Imputer(missing_values=0, strategy='mean', axis=0)>>> imp.fit(X)Imputer(axis=0, copy=True, missing_values=0, strategy='mean', verbose=0)>>> X_test = sp.csc_matrix([[0, 2], [6, 0], [7, 6]])>>> print(imp.transform(X_test)) [[ 4. 2. ] [ 6. 3.666...] [ 7. 6. ]]
本文讲解的比较接单,如果对这些不是很理解的话,请到scikit-learn的官网中查看英文版本:preprocessing.
References
- Scikit-learn preprocessing.
新浪微博: @拾毅者 个人博客: D.W’s Diary
- Scikit-learn Preprocessing 预处理
- Scikit-learn Preprocessing 预处理
- Scikit-learn:数据预处理Preprocessing data
- scikit-learn preprocessing模块
- scikit-learn Preprocessing data
- scikit-learn Preprocessing学习笔记(一)
- scikit-learn Preprocessing学习笔记(二)
- scikit-learn Preprocessing学习笔记(三)
- scikit-learn数据预处理
- scikit-learn数据预处理
- scikit-learn文档学习 预处理
- scikit-learn的4.3对数据预处理
- 【Scikit-Learn 中文文档】预处理数据
- 【Scikit-Learn 中文文档】预处理数据
- 【Scikit-Learn 中文文档】预处理数据
- 【Scikit-Learn 中文文档】预处理数据
- 【Scikit-Learn 中文文档】预处理数据
- 【Scikit-Learn 中文文档】三十四:预处理数据
- 装机实用瘦身工具合集:
- 二叉树的建立与遍历(C语言简单实现)
- LBP特征的实现及LBP+SVM分类
- github 使用
- VC++/VS2010 Win32控制台程序 运行结束 dos窗口立刻消失/一闪而过 的解决方法
- Scikit-learn Preprocessing 预处理
- Android四大图片缓存框架之-Picasso和Glide
- shell 脚本参考
- iOS APP启动引导界面 EAIntroView
- some commands for disk management
- 数据库安全
- 档案管理系统----需求分析
- Java中的线程中断:interrupt()、interrupted()和isInterrupted
- OpenGL矩阵的那些事-1