数据预处理(2) ——数据变换与数据离散化 使用python(sklearn,pandas,numpy)实现
来源:互联网 发布:淘宝上哪家西服定做好 编辑:程序博客网 时间:2024/05/29 08:01
数据预处理的主要任务有:
一、数据预处理
1.数据清洗
2.数据集成
3.数据转换
4.数据归约
3.数据变换
数据变换是指将数据转换或统一成适合于挖掘的形式。
(1)数据泛化:使用概念分层,用高层概念替换低层或“原始”数据。例如,分类的属性,如街道,可以泛化为较高层的概念,如城市或国家。
使用时根据自己需求,自己写代码实现
(2)规范化:将属性数据按比例缩放,使之落入一个小的特定区间。大致可分三种:最小最大规范化、z-score规范化和按小数定标规范化。
2.1 最小最大规范化
from sklearn.preprocessing import MinMaxScalerM=MinMaxScaler()data2=M.fit_transform(data)
2.2 z-score规范化
from sklearn.preprocessing import StandardScalerS=StandardScaler()data1=S.fit_transform(data)
2.3 小数定标规范化
举个栗子:假设A取值由-986到917。A的最大绝对值为986 。因此,为使用小数定标规范化,我们用1000除每个值。-986被规范化到-0.986
(3)属性构造:可以构造新的属性并添加到属性集中,以帮助挖掘过程。例如,可能希望根据属性height和width添加属性area。通过属性构造可以发现关于数据属性间联系的丢失信息,这对知识发现是有用的。
(4)离散化:数值属性(例如:年龄)的原始值用区间标签(0-10,11-20等)代替。
x=[1,1,5,5,5,5,8,8,10,10,10,10,14,14,14,14,15,15,15,15,15,15,18,18,18,18,18,18,18,18,18,20,2,20,20,20,20,20,20,21,21,21,25,25,25,25,25,28,28,30,30,30]x=pd.Series(x)s=pd.cut(x,bins=[0,10,20,30])d=pd.get_dummies(s)
这里采用了哑编码,用OneHotEncoder也可以实现哑编码
sklearn的preprocessing预处理方法参考http://blog.csdn.net/nkwangjie/article/details/17471889
参考文献:
http://www.cnblogs.com/jasonfreak/p/5448462.html
0 0
- 数据预处理(2) ——数据变换与数据离散化 使用python(sklearn,pandas,numpy)实现
- 数据预处理(1) ——数据清洗 使用python(sklearn,pandas,numpy)实现
- 数据预处理(3) ——数据归约 使用python(sklearn,pandas,numpy)实现
- sklearn-数据预处理-特征变换
- python/pandas/numpy(十二)数据加载、存储与文件格式
- 【sklearn】数据预处理(一)
- Sklearn学习(二)——数据预处理(Normalization)
- Python-Pandas(3)数据预处理
- Python数据分析笔记——Numpy、Pandas库
- Python数据分析常用手册——Numpy和Pandas
- python/pandas/numpy数据分析(七)-MultiIndex
- 关于使用Sklearn进行数据预处理 —— 缺失值(Missing Value)处理
- 预处理数据的方法总结(使用sklearn-preprocessing)
- 十分钟搞定pandas(Python数据预处理库)
- sklearn preprocessing 数据预处理(OneHotEncoder)
- sklearn preprocessing 数据预处理(OneHotEncoder)
- sklearn学习笔记(一)——数据预处理 sklearn.preprocessing
- 4.1-4.3 数据预处理-清洗-变换-离散化
- scanf函数中的格式字符串及注意事项
- 金额元分之间转换工具类
- 01-存储过程---mysql
- CVPR 2016-11-9
- transcode_step()在转码过程中对pts、dts、duration的处理
- 数据预处理(2) ——数据变换与数据离散化 使用python(sklearn,pandas,numpy)实现
- Strin类-split方法
- NYOJ71 独木舟上的旅行
- Spring bean注解后取对象
- TCP/UDP实例讲解
- C/C++笔试必须熟悉掌握的头文件系列(四)——string.h/cstring
- API 23 widget.Space——属性分析
- List接口
- hbase的整体架构分析