程序博客网 > 金米袋理财安全吗知乎

sklearn学习记录二：数据预处理

来源：互联网发布：金米袋理财安全吗知乎编辑：程序博客网时间：2024/06/05 17:45

（1）数据标准化（Standardization or Mean Removal and Variance Scaling）

进行标准化缩放的数据均值为0，具有单位方差。

scale函数提供一种便捷的标准化转换操作，如下：

[python] view plaincopy

>>> from sklearn import preprocessing #导入数据预处理包
>>> X=[[1.,-1.,2.],
[2.,0.,0.],
[0.,1.,-1.]]
>>> X_scaled = preprocessing.scale(X)
>>> X_scaled
array([[ 0. , -1.22474487, 1.33630621],
[ 1.22474487, 0. , -0.26726124],
[-1.22474487, 1.22474487, -1.06904497]])

[python] view plaincopy

>>> X_scaled.mean(axis=0)
array([ 0., 0., 0.])
>>> X_scaled.std(axis=0)
array([ 1., 1., 1.])

同样我们也可以通过preprocessing模块提供的Scaler（StandardScaler 0.15以后版本）工具类来实现这个功能：

[python] view plaincopy

>>> scaler = preprocessing.StandardScaler().fit(X)
>>> scaler
StandardScaler(copy=True, with_mean=True, with_std=True)
>>> scaler.mean_
array([ 1. , 0. , 0.33333333])
>>> scaler.std_
array([ 0.81649658, 0.81649658, 1.24721913])
>>> scaler.transform(X)
array([[ 0. , -1.22474487, 1.33630621],
[ 1.22474487, 0. , -0.26726124],
[-1.22474487, 1.22474487, -1.06904497]])

（2）数据规范化（Normalization）
把数据集中的每个样本所有数值缩放到(-1,1)之间。

[python] view plaincopy

>>> X = [[ 1., -1., 2.],
[ 2., 0., 0.],
[ 0., 1., -1.]]
>>> X_normalized = preprocessing.normalize(X, norm='l2')
>>> X_normalized
array([[ 0.40824829, -0.40824829, 0.81649658],
[ 1. , 0. , 0. ],
[ 0. , 0.70710678, -0.70710678]])
>>> normalizer = preprocessing.Normalizer().fit(X) # fit does nothing
>>> normalizer
Normalizer(copy=True, norm='l2')
>>> normalizer.transform(X)
array([[ 0.40824829, -0.40824829, 0.81649658],
[ 1. , 0. , 0. ],
[ 0. , 0.70710678, -0.70710678]])
>>> normalizer.transform([[-1., 1., 0.]])
array([[-0.70710678, 0.70710678, 0. ]])

（3）二进制化（Binarization）
将数值型数据转化为布尔型的二值数据，可以设置一个阈值（threshold）

[python] view plaincopy

>>> X = [[ 1., -1., 2.],
[ 2., 0., 0.],
[ 0., 1., -1.]]
>>> binarizer = preprocessing.Binarizer().fit(X) # fit does nothing
>>> binarizer
Binarizer(copy=True, threshold=0.0) # 默认阈值为0.0
>>> binarizer.transform(X)
array([[ 1., 0., 1.],
[ 1., 0., 0.],
[ 0., 1., 0.]])
>>> binarizer = preprocessing.Binarizer(threshold=1.1) # 设定阈值为1.1
>>> binarizer.transform(X)
array([[ 0., 0., 1.],
[ 1., 0., 0.],
[ 0., 0., 0.]])

（4）标签预处理（Label preprocessing）

4.1）标签二值化（Label binarization）

LabelBinarizer通常用于通过一个多类标签（label）列表，创建一个label指示器矩阵

[python] view plaincopy

>>> lb = preprocessing.LabelBinarizer()
>>> lb.fit([1, 2, 6, 4, 2])
LabelBinarizer(neg_label=0, pos_label=1)
>>> lb.classes_
array([1, 2, 4, 6])
>>> lb.transform([1, 6])
array([[1, 0, 0, 0],
[0, 0, 0, 1]])

上例中每个实例中只有一个标签（label），LabelBinarizer也支持每个实例数据显示多个标签：

[python] view plaincopy

>>> lb.fit_transform([(1, 2), (3,)]) #(1,2)实例中就包含两个label
array([[1, 1, 0],
[0, 0, 1]])
>>> lb.classes_
array([1, 2, 3])

4.2）标签编码（Label encoding）

[python] view plaincopy

>>> from sklearn import preprocessing
>>> le = preprocessing.LabelEncoder()
>>> le.fit([1, 2, 2, 6])
LabelEncoder()
>>> le.classes_
array([1, 2, 6])
>>> le.transform([1, 1, 2, 6])
array([0, 0, 1, 2])
>>> le.inverse_transform([0, 0, 1, 2])
array([1, 1, 2, 6])

也可以用于非数值类型的标签到数值类型标签的转化：

[python] view plaincopy

>>> le = preprocessing.LabelEncoder()
>>> le.fit(["paris", "paris", "tokyo", "amsterdam"])
LabelEncoder()
>>> list(le.classes_)
['amsterdam', 'paris', 'tokyo']
>>> le.transform(["tokyo", "tokyo", "paris"])
array([2, 2, 1])
>>> list(le.inverse_transform([2, 2, 1]))
['tokyo', 'tokyo', 'paris']

1 0

金米袋理财安全吗知乎

金米袋理财安全吗知乎

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子脚趾头痒脱皮怎么办竹菜板发霉怎么办猫蚤咬了怎么办凉席上有刺怎么办木材有刺怎么办? 实木有刺怎么办? 鼻子长脂肪粒怎么办眼睛有飞虫怎么办面部容易过敏怎么办皮肤过敏感染怎么办鼻子容易过敏怎么办昆虫叮咬红肿怎么办凤尾竹长虫子怎么办牙齿里面有牙虫怎么办家里生锯谷盗怎么办牙齿蛀虫怎么办牙齿长蛀虫怎么办衣柜有蛀虫怎么办大米里有米虫怎么办家里到处有米虫怎么办房间里有米象怎么办面粉生虫子怎么办面粉生虫怎么办富贵竹黄叶怎么办面粉里有小黑虫怎么办面粉长虫了怎么办面里有虫子怎么办白面生虫子怎么办米长虫了怎么办吃死虫子怎么办木板床潮湿怎么办家里潮虫多怎么办平房屋里有潮虫怎么办家里有小黑飞虫怎么办床上有虫子怎么办家里有褥虫怎么办虫咬皮炎怎么办蜱虫咬了怎么办螨虫过敏性鼻炎怎么办螨虫过敏鼻炎怎么办螨虫过敏哮喘怎么办