《DW2.0下一代数据仓库的构架》研读心得

来源:互联网 发布:sql添加默认值 编辑:程序博客网 时间:2024/05/20 21:24

2008年的时候就看过这本书的介绍,今天借到中文版,可以好好研读一下了。

一、“真正的”数据仓库

        DW2.0中,作者认为数据仓库很快演变为一个被称为企业信息工厂的架构。包括:源系统、ODS、ETL、企业数据仓库、数据集市和探索仓库等组件。这一点基本上还是DW中的观点。现在电子商务应用中基于云计算的数据仓库已经发生了根本变化,可能只需一个云数据仓库,即能满足数据集市、数据挖掘等业务需求,ODS可能会被省略,ETL过程被实时数据流所代替。几乎可无限扩展的存储代替了高昂的专业存储,线性提升的计算代替了复杂昂贵的商用系统。真正的数据仓库的面纱已经打开了!

二、逻辑分层

        DW2.0中提出划分为四个区:交换区、整合区、近线区、归档区。因为云数据仓库的出现,高性能计算和天文级存储不再是高不可攀,这点不再重要,但仍具有参考意义。

三、DW2.0流动性-语义常态和暂态数据

        DW2.0提出数据流动性:语义常态和暂态数据,以此应对业务需求变化和技术架构难以变化的矛盾。云数据仓库中,因为基于列/列族(key/value/stamp)的数据存储和应用,无疑更有优势。这点仍有参考意义和实际意义。

四、DW是应用而非项目

        过去认为DW是一个长期的项目,数据仓库和应用需求可以分离,结果发现应用时根本无法使用。DW2.0中,认为DW是应用,而非项目。由此,数据仓库在规划、设计、建设时需结合应用需求“总体规划、分步实施”,避免数据和应用脱节。

五、数据模型

        DW2.0中提出建立企业数据模型,并完成模型转换。我认为,在云数据仓库中同样需要整合数据模型,汇总模型和明细模型,并近可能使用宽表,提供统一视图。以此,提高数据适用性,提供高性能计算能力。

六、ETL与DW2.0

        在DW2.0中,ETL仍是一个非常重要的工作,但在云数据仓库中,需满足实时的要求,因此ETL被实时数据流所代替。

七、元数据与DW2.0

        元数据在DW中无从提及,在DW2.0中多处提到,但元数据的用途阐述的还不够深入,在实际应用中,需要借助于元数据管理系统实现。

八、数据质量

        数据质量也是在DW2.0中首次提及,在技术上,借助于元数据管理系统可有效管理数据质量问题,管理上,可借助IMO(信心管理组织)来管理数据质量问题。

九、非结构化数据

        针对非结构化数据,DW2.0充分认识到了其重要性,可以用来作为参考,也可以借助于NLP(自然语言处理)、AI(人工智能)等直接进行聚合,提取有价值的信息。

 

        以上,对DW2.0进行些概要的分析,以后在云数据仓库的实践中再进一步完善。

原创粉丝点击