《数据仓库实践》

来源:互联网 发布:如何自己做软件 编辑:程序博客网 时间:2024/06/11 08:06

序言

2017 年初,我开始在简书上写关于数据仓库的系列博客,博客主题围绕大数据场景下数据仓库的理论和实践来展开,截止现在已有十篇左右。最初写作的时候主要是抱着学习和总结的态度,导致很多地方略显粗糙和不严谨,加上这一系列的博客也收到了不少读者朋友的反馈,我就有了重新整理一遍该系列的想法。因此,17 年底,开始利用周末的时间开始对之前的一些博客进行重写,并补齐一些之前没有提到的知识点,将之前的一系列博客变成一本更为系统性的小书奉献给大家(地址在末尾)。

关于本书

首先,这是一本关于大数据场景下如何实践数据仓库的书,以实践为主并辅以部分的理论知识。书中内容主要侧重于这几个方面:数据建模、数据组织和数据管理。在本书中,我没有过多地涉及到大数据的技术细节以及数据挖掘的一些算法,原因在于我希望这本书显得更纯粹针对性更强一些。

其次,这是一本小书,说它小是因为它的涵盖面相对比较窄一点,我希望后面是写的一个个系列的小书,而不是一个大而全的东西。小,也就意味着更精炼和专注。因此关注于数据仓库的数据建模和数据管理的童鞋更容易获得一些共鸣。

最后,希望大家能多交流。写这本小书,花很多时间来组织内容和语言对我并无太大益处,我所希望的是能有所收获,知识取之于开源世界而回馈于开源世界,我也希望从这本小书中有所收获的小伙伴能有一些反馈,不管是正向的还是负向的都能让我有所成长。

目录

本系列文章有下面内容:

  • 数据仓库中的模型设计
  • 详解唯独建模
  • 拉链表是什么
  • 缓慢变化维度
  • 如何优雅地设计数据分层
  • 别人家的元数据系统是怎么设计的
  • 数据质量监控
  • 聊一聊ETL的设计
  • 重要的代理键
  • 时间维表的实践

小书的gitbook地址:https://www.gitbook.com/book/dantezhao/data-warehouse-in-action/details

原创粉丝点击