数据整理实践指南
来源:互联网 发布:新手开淘宝店卖什么好 编辑:程序博客网 时间:2024/06/06 09:51
第二章
2.1 理解数据结构
无法访问
常见格式:
- 表格(tsv,csv,excel)
- XML
- JSON(MongoDB)
2.2 校验
2.2.1 字段校验
弄清字段含义和数据含义:
- 单位(美元、美分):查看字段定义和实际值
- 是否有意义。点击量不能是小数。
- 空值/缺失值在数据中的表示:NULL,N/A,NaN,数字-999等
2.2.2 值校验
正则表达式
- 对于枚举字段,如月份,“month”应只包含月份信息。
- 对于数值字段,所有值都是数值么?
- 对于固定格式的字段,如IP地址,需正则表达式匹配。
2.2.3 简单统计的物理解释
对于数值字段(由自动化方法实现):
- 最大值、最小是是否有意义;
- 根据定义,数值应在某个范围以内,如比率应小于1;
- 财务值合理范围;
- 平均值帮助校验数据
2.3 可视化
- 直方图既适于数值型、也适于非数值型数据
- 一阶直方图
- 二阶直方图(聚合)
- 分箱(1~10、10~20……)
- 小心直方图中的不连续点,可能数据有问题
阅读全文
0 0
- 数据整理实践指南
- 大数据:技术与应用实践指南
- 大数据:技术与应用实践指南
- 大数据最佳实践指南01---ADMA
- 大数据最佳实践指南02---ADMA
- 大数据最佳实践指南03---ADMA
- 大数据最佳实践指南04---ADMA
- 大数据最佳实践指南05---ADMA
- 大数据最佳实践指南06---ADMA
- 大数据最佳实践指南07---ADMA
- 大数据最佳实践指南08---ADMA
- 大数据最佳实践指南09---ADMA
- 企业大数据分析实践指南
- 整理json数据相关的(项目实践)
- 大数据项目实践指南(总体思路)
- 《写给程序员的数据挖掘实践指南》第二章笔记
- 《写给程序员的数据挖掘实践指南》第三章笔记
- 《写给程序员的数据挖掘实践指南》第四章笔记
- YP.1 Exercises
- 应优先大力发展智能环境安全可信度评价算法
- 花了一个通宵总算解决了sitemesh对于struts2转发地址不进行装饰的问题
- JS刷新当前页面的几种方法总结
- POSTMESSAGE与SENDMESSAGE的区别
- 数据整理实践指南
- 《Tableau数据可视化从入门到精通》之连接JSON文件
- 在Windows运行Python程序
- 集成学习
- Spring-AOP @AspectJ切点函数之within()
- 《Tableau数据可视化从入门到精通》之Tableau连接到Hadoop Hive
- Connecting to the Network
- The GAN Zoo (最新GAN 相关paper收集)
- GAN模型-分析角度