《DW2.0下一代数据仓库的构架》研读心得
来源:互联网 发布:sql添加默认值 编辑:程序博客网 时间:2024/05/20 21:24
2008年的时候就看过这本书的介绍,今天借到中文版,可以好好研读一下了。
一、“真正的”数据仓库
DW2.0中,作者认为数据仓库很快演变为一个被称为企业信息工厂的架构。包括:源系统、ODS、ETL、企业数据仓库、数据集市和探索仓库等组件。这一点基本上还是DW中的观点。现在电子商务应用中基于云计算的数据仓库已经发生了根本变化,可能只需一个云数据仓库,即能满足数据集市、数据挖掘等业务需求,ODS可能会被省略,ETL过程被实时数据流所代替。几乎可无限扩展的存储代替了高昂的专业存储,线性提升的计算代替了复杂昂贵的商用系统。真正的数据仓库的面纱已经打开了!
二、逻辑分层
DW2.0中提出划分为四个区:交换区、整合区、近线区、归档区。因为云数据仓库的出现,高性能计算和天文级存储不再是高不可攀,这点不再重要,但仍具有参考意义。
三、DW2.0流动性-语义常态和暂态数据
DW2.0提出数据流动性:语义常态和暂态数据,以此应对业务需求变化和技术架构难以变化的矛盾。云数据仓库中,因为基于列/列族(key/value/stamp)的数据存储和应用,无疑更有优势。这点仍有参考意义和实际意义。
四、DW是应用而非项目
过去认为DW是一个长期的项目,数据仓库和应用需求可以分离,结果发现应用时根本无法使用。DW2.0中,认为DW是应用,而非项目。由此,数据仓库在规划、设计、建设时需结合应用需求“总体规划、分步实施”,避免数据和应用脱节。
五、数据模型
DW2.0中提出建立企业数据模型,并完成模型转换。我认为,在云数据仓库中同样需要整合数据模型,汇总模型和明细模型,并近可能使用宽表,提供统一视图。以此,提高数据适用性,提供高性能计算能力。
六、ETL与DW2.0
在DW2.0中,ETL仍是一个非常重要的工作,但在云数据仓库中,需满足实时的要求,因此ETL被实时数据流所代替。
七、元数据与DW2.0
元数据在DW中无从提及,在DW2.0中多处提到,但元数据的用途阐述的还不够深入,在实际应用中,需要借助于元数据管理系统实现。
八、数据质量
数据质量也是在DW2.0中首次提及,在技术上,借助于元数据管理系统可有效管理数据质量问题,管理上,可借助IMO(信心管理组织)来管理数据质量问题。
九、非结构化数据
针对非结构化数据,DW2.0充分认识到了其重要性,可以用来作为参考,也可以借助于NLP(自然语言处理)、AI(人工智能)等直接进行聚合,提取有价值的信息。
以上,对DW2.0进行些概要的分析,以后在云数据仓库的实践中再进一步完善。
- 《DW2.0下一代数据仓库的构架》研读心得
- 《DW2.0---下一代数据仓库的架构》读书笔记
- 关注下一代数据仓库架构--DW2.0
- DW2.0读书笔记--第一章 数据仓库简史及第一代数据仓库
- DW2.0读书笔记--DW2.0简介
- 浅析DW2.0架构
- Webx源码研读心得
- Infobright数据仓库应用心得
- 一脸懵逼学习Hive(数据仓库基础构架)
- 【数据仓库】数据仓库的发展史
- 需要研读的书
- 《涅槃经》的研读
- 数据仓库历史演化阅读心得
- 数据仓库学习--数据仓库的粒度
- 针对构架师的.net3.0介绍
- 研读论文的得失总结
- 研读会员卡系统的总结
- 研读 simplifyreader 学到的知识
- define的用途之一
- 类的定义和申明
- 安卓手机的root问题
- MFC多文档常用函数
- Android游戏开发之单点触摸与多点触摸的响应方式(二十三)
- 《DW2.0下一代数据仓库的构架》研读心得
- 问题Re-installation failed due to different application signatures.解决
- Android 常见权限列表
- 关于Android蓝牙开发的一些经验之谈
- Rails3 入门 前言
- PHP函数累积
- dp专辑F - Mondriaan's Dream [状态压缩]
- VB 回忆录——开篇
- Qt之QSpinBox类