数据仓库
来源:互联网 发布:生死狙击矩阵图片 编辑:程序博客网 时间:2024/06/02 05:34
数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策过程。 —W. H. Inmon
数据仓库关键特征
- 面向主题
- 关注决策者的数据建模与分析
- 排除对于决策无用的数据,提供特定主题的简明视图
- 数据集成
- 数据仓库集成了多个异种数据源
- 当数据被移到数据仓库时,它们要经过转化,确保命名约定、编码结构、属性度量等的一致性
- 随时间而变化
- 从历史的角度提供信息(比如过去 5-10 年)
- 时间范围比操作数据库系统要长的多
- 数据不易丢失
- 物理上分离保存(尽管数据仓库中的数据来自于操作数据库)
- 只需要两种数据访问:数据的初始转载和数据访问(读操作)
数据仓库与操作数据库系统
操作数据库系统的主要任务是联机事务处理OLTP(日常操作)
数据仓库的主要任务是联机分析处理OLAP(数据分析和决策)
数据仓库概念模型
基于多维数据模型
- 星型模式(Star schema): 事实表在中心,周围围绕地连接着维表(每维一个),事实表含有大量数据,没有冗余
- 雪花模式(Snowflake schema): 是星型模式的变种,其中某些维表是规范化的,因而把数据进一步分解到附加表中。结果,模式图形成类似于雪花的形状
- 事实星座(Fact constellation): 多个事实表共享维表, 这种模式可以看作星型模式集,因此称为星系模式(galaxy schema),或者事实星座