oracle warehouse builder 在ETL 中的数据质量控制

来源:互联网 发布:固体密度数据 编辑:程序博客网 时间:2024/05/17 02:32

参考网址:http://database.ctocio.com.cn/tips/265/7419765.shtml

ETL是非常重要的一步,往往一个项目的成败就是看ETL过程的成功与否.选用一个好的ETL工具会让项目更加的有信心

  数据质量一直是ETL工具的一个高级特性,为了解释清楚这个问题,让我们看看Oracle的商业ETL工具Oracle Warehouse Builder 在数据质量上是如何管理的

  oracle在官方网站上有一篇专门介绍如何使用oracle warehouse builder的文章,地址为http://www.oracle.com/technology/pub/articles/rittman-owb.html?rssid=rss_otn_articles?msgid=4931461, 是mark rittman所写,rittman公司本身也是一个专业的oracle 数据仓库 和商业智能方面的顾问公司,在oracle 方面非常的有发言权,如果你对oracle和数据仓库,或者oracle商业智能有兴趣的话,可以看一下上面的这篇文章,本文所有图片引自上面的这篇文章。

  ETL难以成功有以下几个难点:

  •   1 . 数据仓库的数据来自于多个数据源,所以数据的一致性很难得到保证,很多情况下需要一种硬性的标准来决定数据的取舍问题.
  •   2 . 数据格式问题,例如数据缺失,超出数据范围,无效数据格式等等。
  •   3 . 出现错误之后没有正确的处理问题,导致数据的质量不断的下降。
  •   4 . 数据一致性问题,处于数据库性能考虑,有时候可能会有意的去掉一些外间或者检查约束。
  •   5 . 业务逻辑问题.由于数据库在最初设计时就不够严格和谨慎。

  我们怎么判断数据的质量好坏的呢,一般用户拿原有系统的显示方式查看某一查询条件的数据与用商业智能报表所产生出来的数据进行对比,看有多大的出入,这个可能需要原先系统有足够的能力显示这些数据并且商业智能工具的报表有足够强大的查询和报表展示能力,或者是用商业智能的报表与OLAP运行出来的报表进行对比,看有多大的出入,出入一般都是会存在的,因为数据不可能完全的准确,但是一定要搞清楚哪里数据出现了问题,并且尽量不要让这些误差扩大到用户无法接受的地步,否则就认为BI失败了。(咋同是一个工具做出来的,数据的出入就这么大呢?)

  oracle warehouse builder 提供三个特性来使ETL的过程简单

  1 . Graphical Data Profiler 可以查看数据的结构,语义,内容,异常,和大纲,数据规则 , 这就是在前一篇说的,kettle的数据管理没有oracle warehouse builder 强大的特性.kettle也提供查看表结构,column的结构,但是它不会判断一个column是不是主键或外键,一个字符串的最小长度是多少,最大长度是多少,一个整数的长度是多少,一个double的精度是多少。

  2 . Correction Wizard 把数据规则应用到你的ETL过程中,自动映射并更正,清理,转化数据, 相当于oracle warehouse builder 提供一些默认的值来帮助你更快的创建映射规则,这个功能也比kettle强大。

  3 . Data Auditor 获取数据规则并监控数据转换的过程。kettle也提供数据监控的机制,并把log记入下来,并告诉你重复的记录数,读写多少条记录,更新拒绝多少条记录,时间,速度,步骤是否成功等信息.

  oracle warehouse builder 提供查看选中表的结构信息和数据信息

oracle warehouse builder 提供查看选中表的结构信息和数据信息

原创粉丝点击