数据仓库的理解
来源:互联网 发布:php 下载文件 编辑:程序博客网 时间:2024/06/17 04:26
数据库和数据仓库的区别
1、数据库是物理库,是数据仓库的载体
2、数据仓库就是一套表
3、Hive和关系型数据库都可以作为数据仓库的载体
4、数据库设计的是做技术的,数据仓库的设计是做业务的
数据仓库的库设计
bdp_ods:存储原始数据
bdp_dw:存储汇总和分析数据
bdp_dm_user:数据集市中user库
bdp_dm_site:数据集市中site库
bdp_dm_device:数据集市中device库
数据仓库的表设计
源表:dw开头,存储原始数据
维度表:dim开头,如省、市、区、商品表、商家表
作用:
统一了维度定义。比如性别的定义,不同的数据库可能不同,有的用0和1表示,有的用Y和N表示,有的用male、woman表示。
事实表:fct开头,核心业务
作用:
1、缩短统计路径,即简化了统计逻辑,因为fct表自身数据加载的时候已经完成了复杂计算。
2、统一了统计路径
设计:
1、根据统计的需要
2、事实表的设计和增加,是dw的核心工作、主要工作
阅读全文