数据清洗步骤
来源:互联网 发布:山西软件开发 编辑:程序博客网 时间:2024/04/28 17:43
数据清洗可以通过5步做好:
1.把所有非数值变量转为数值变量:含有人类知识的变量根据先验知识转化(比如日期转化为天数、年、月、日等,地理转化为经纬度、城市等级等,定序变量保留序数),不含有先验知识的非数值变量通过one-hot encoding一律转成0-1哑变量,此时所有变量都是数值型的了。
2.把一系列相似变量可以用统计量概括或补充(比如不同时期第三方信息、几个城市等用均值方差之类的信息)。
3.删掉那些空值与同一值占比过多的稀疏变量。
4.删掉共线变量 。
5.把空值填充好(中位数或平均数等),然后标准化。
0 0
- 数据清洗步骤
- python数据清洗步骤
- 数据清洗
- 数据清洗
- 数据清洗
- 数据清洗
- 数据清洗
- 数据清洗
- 数据清洗
- 数据清洗
- perl 数据清洗 实例
- ETL---数据清洗转化
- 数据清洗工具OpenRefine
- 数据清洗工具kettle
- 数据清洗(Data Cleaning)
- 数据清洗实例分析
- 数据清洗经验
- 脏数据清洗
- 第一行代码Android学习(十二)
- 数据结构实验之数组二:稀疏矩阵
- “==”
- 控制当前屏幕透明度
- iOS恢复QQ音乐等播放器中断
- 数据清洗步骤
- linux 下USB 摄像头的使用说明
- UVALive3637(01背包+贪心)
- mac下安装caffe
- JavaWeb--使用cookie实现会话管理
- Emmagee学习之获取内存及CPU占用等数据
- Android中getX()、getRawX()、getScrollX()、scrollTo()、scrollBy()等的区别
- 高性能 TCP & UDP 通信框架 HP-Socket v3.5.4 发布
- 数据结构实验之数组三:快速转置