数据仓库

来源:互联网 发布:生死狙击矩阵图片 编辑:程序博客网 时间:2024/06/02 05:34

数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策过程。 —W. H. Inmon


数据仓库关键特征

  • 面向主题
    • 关注决策者的数据建模与分析
    • 排除对于决策无用的数据,提供特定主题的简明视图
  • 数据集成
    • 数据仓库集成了多个异种数据源
    • 当数据被移到数据仓库时,它们要经过转化,确保命名约定、编码结构、属性度量等的一致性
  • 随时间而变化
    • 从历史的角度提供信息(比如过去 5-10 年)
    • 时间范围比操作数据库系统要长的多
  • 数据不易丢失
    • 物理上分离保存(尽管数据仓库中的数据来自于操作数据库)
    • 只需要两种数据访问:数据的初始转载和数据访问(读操作)

数据仓库与操作数据库系统

操作数据库系统的主要任务是联机事务处理OLTP(日常操作)
数据仓库的主要任务是联机分析处理OLAP(数据分析和决策)

特征 OLTP OLAP 任务特点 操作处理 信息处理 面向 事务/顾客 分析/市场 用户 办事员、DBA、数据库专业人员 经理、主管、数据分析员 功能 日常操作 长期信息分析、决策支持 DB设计 基于E-R,面向应用 星型/雪花,面向主题 数据 当前的、详细的 历史的、汇总的 视图 详细的、二维关系型 经演化集成的、多维的 任务单位 简短的事务 复杂的查询 访问数据量 数十个 数百万个 访问模式 事务操作 只读查询 用户数 数千个 数百个 DB规模 100M-数GB 100GB-数TB 优先性 高性能、高可用性 高灵活性、端点用户自治 度量 事务吞吐量 查询吞吐量、响应时间

数据仓库概念模型

基于多维数据模型

  • 星型模式(Star schema): 事实表在中心,周围围绕地连接着维表(每维一个),事实表含有大量数据,没有冗余
  • 雪花模式(Snowflake schema): 是星型模式的变种,其中某些维表是规范化的,因而把数据进一步分解到附加表中。结果,模式图形成类似于雪花的形状
  • 事实星座(Fact constellation): 多个事实表共享维表, 这种模式可以看作星型模式集,因此称为星系模式(galaxy schema),或者事实星座
原创粉丝点击