sklearn preprocessing 数据预处理(OneHotEncoder)
来源:互联网 发布:超级电容给单片机供电 编辑:程序博客网 时间:2024/05/23 18:41
1. one hot encoder
sklearn.preprocessing.OneHotEncoder
one hot encoder 不仅对 label 可以进行编码,还可对 categorical feature 进行编码:
>>> from sklearn.preprocessing import OneHotEncoder>>> enc = OneHotEncoder()>>> enc.fit([[0, 0, 3], [1, 1, 0], [0, 2, 1], [1, 0, 2]]) >>> enc.n_values_array([2, 3, 4])>>> enc.feature_indices_array([0, 2, 5, 9])>>> enc.transform([[0, 1, 1]]).toarray()array([[ 1., 0., 0., 1., 0., 0., 1., 0., 0.]])
为 OneHotEncoder 类传递进来的数据集:
[[0, 0, 3], [1, 1, 0], [0, 2, 1], [1, 0, 2]]
每一列代表一个属性,fit 操作之后:
- 对象
enc
的n_values_
成员变量,记录着每一个属性的最大取值数目,如本例第一个属性:0, 1, 0, 1
⇒ 2,0, 1, 2, 0
⇒ 3,3, 0, 1, 2
⇒4
;- 即各个属性(feature)在 one hot 编码下占据的位数;
- 对象
enc
的feature_indices_
,则记录着属性在新 One hot 编码下的索引位置,- feature_indices_ 是对 n_values_ 的累积值,不过 feature_indices 的首位是 0;
进一步通过 fit 好的 one hot encoder 对新来的特征向量进行编码:
>>> enc.transform([[0, 1, 1]]).toarray()array([[ 1., 0., 0., 1., 0., 0., 1., 0., 0.]])
- 前 2 位 1, 0,对 0 进行编码
- 中间 3 位 0, 1, 0 对 1 进行编码;
- 末尾 4 位 0, 1, 0, 0 对 1 进行编码;
阅读全文
0 0
- sklearn preprocessing 数据预处理(OneHotEncoder)
- sklearn preprocessing 数据预处理(OneHotEncoder)
- sklearn.preprocessing.OneHotEncoder
- Preprocessing data-sklearn数据预处理
- sklearn中数据预处理(preprocessing)
- data-sklearn数据预处理 Preprocessing
- Preprocessing data-sklearn数据预处理
- sklearn.preprocessing.LabelEncoder和onehotencoder
- 机器学习中的数据预处理(sklearn preprocessing)
- 预处理数据的方法总结(使用sklearn-preprocessing)
- 机器学习中的数据预处理中的标准化(sklearn preprocessing)
- 机器学习中的数据预处理(sklearn preprocessing)
- sklearn.preprocessing中 LabelEncoder 和 OneHotEncoder区别
- sklearn学习笔记(一)——数据预处理 sklearn.preprocessing
- 『sklearn学习』preprocessing函数——数据预处理
- 数据预处理sklearn.preprocessing中,fit_transform()和transform()的区别?
- Preprocessing data数据预处理
- 基于【pandas】的数据预处理(含定制【OneHotEncoder】方法)
- 使用光盘进行搭建本地yum 源
- 单例模式
- 读《怎样解题》
- DOM节点删除之empty()的基本用法
- USACO之Section1.2.1 Milking Cows [其他]
- sklearn preprocessing 数据预处理(OneHotEncoder)
- 读书笔记《Effective C++》条款38:通过复合塑模出has-a或“根据某物实现出”
- Linux设备驱动之USB网卡驱动程序
- Java集合小结
- 深克隆和浅克隆
- 深入理解javascript原型和闭包(13)-【作用域】和【上下文环境】
- Eclipse 建立 Java 最简 Web 项目
- 设计模式原则
- html中文字的字体格式标签