数据探查(一)

来源:互联网 发布:ios视频录制软件 编辑:程序博客网 时间:2024/05/18 00:12

    接触数据仓库也半年多了,一直都知道数据质量的重要性, 前面也看过几篇数据质量的博文,但是没有真正的在实践中去做过。上周接触了一下数据探查,发现数据探查对于数据质量是非常重要的一个环节,它是决定最后数据正确性的非常关键的一步。   数据探查阶段为ETL团队提供了指导,告诉他们需要使用多少数据清洗机制,并且使他们不会因为创建处理脏数据的系统分散了注意力而遗漏项目的主要环节。一定要预先进行数据探查工作!使用数据探查结果,可以设定业务发起人对于实际开发时间表、源数据的局限性和对更好地源数据捕捉方法进行投资的需求等的期望。

        在启动主数据管理项目之前,需要了解数据的内容、质量和结构。在数据源进行的数据探查使数据管理员和数据仓库管理员能够在数据进入主数据管理项目之前,快速发现和分析跨所有数据源的所有数据异常,此流程可极大加快从主数据管理项目实施中获取价值。

        由于数据清洗增强了数据的准确度,带来了数据完整性,并从源头增进了数据的可信度,因此数据清洗改善了主数据管理项目系统中的数据一致性。

     “数据探查、数据质量和数据集成是三个搭配使用的商业惯例,就像面包、黄油和果酱⋯⋯。数据管理专业人士及其商业对手需要协调工作并设计有效结合所有这三个惯例的项目。”

从上图可以发现,

数据探查在数据质量流程中的位置。我们从源系统中查询到各种数据,然后对数据进行分析和探查,而数据清洗过程将利用数据探查的结果进行有效的清洗,最后达到数据集成,以提供正确的数据。

本次用到的具体的数据探查语句:

1.Null值统计

  • selectcount(*)总记录数
           round(sum(decode(A,null,1,0)) /count(*) * 100,2from t

2.主键ID长度的统计

selectdistinct (length(A))from t

3.码表或者状态值的数量的统计

    码表类型名称及其每个类型下数据量的统计

 

原创粉丝点击