数据整理实践指南

来源:互联网 发布:新手开淘宝店卖什么好 编辑:程序博客网 时间:2024/06/06 09:51

第二章


2.1 理解数据结构

无法访问
常见格式:

  • 表格(tsv,csv,excel)
  • XML
  • JSON(MongoDB)

2.2 校验

2.2.1 字段校验

弄清字段含义和数据含义:

  • 单位(美元、美分):查看字段定义和实际值
  • 是否有意义。点击量不能是小数。
  • 空值/缺失值在数据中的表示:NULL,N/A,NaN,数字-999等

2.2.2 值校验

正则表达式
- 对于枚举字段,如月份,“month”应只包含月份信息。
- 对于数值字段,所有值都是数值么?
- 对于固定格式的字段,如IP地址,需正则表达式匹配。

2.2.3 简单统计的物理解释

对于数值字段(由自动化方法实现):

  • 最大值、最小是是否有意义;
  • 根据定义,数值应在某个范围以内,如比率应小于1;
  • 财务值合理范围;
  • 平均值帮助校验数据

2.3 可视化

  • 直方图既适于数值型、也适于非数值型数据
  • 一阶直方图
  • 二阶直方图(聚合)
  • 分箱(1~10、10~20……)
  • 小心直方图中的不连续点,可能数据有问题
原创粉丝点击