数据库、数据仓库、数据集市认知要点(总结笔记)

来源:互联网 发布:qt编程软件官方下载 编辑:程序博客网 时间:2024/05/22 04:36

一、什么是数据仓库?

1、数据仓库的产生
数据仓库技术是随着人们对大型数据库系统研究的不断深入,在传统数据库技术基础之上发展而来的,其主要目的就是为决策提供支持,为OLAP、数据挖掘深层次的分析提供平台。
数据仓库是一个和实际应用密不可分的研究领域,与传统数据库相比,数据仓库不仅引入了许多新的概念,而且在体系结构、数据组织等方面,均有其自身的特点。
2、数据仓库要解决的基本问题
全局范围内统一数据视图
——数据内容
数据的完整性
数据的准确性
数据的一致性
——数据组织
面向分析决策
3、传统数据库做数据分析时的弊端
传统数据库的主要任务是进行事物处理(OLTP),它所关注的是事物处理的及时性、完整性与正确性,而在数据的分析处理方面,则存在着不足,主要体现在
①、集成性的缺乏
首先,业务数据库系统的条块与部门分割,导致数据分布的分散化与无序化;其次,业务数据库缺乏统一的定义与规划,导致数据定义存在歧义
②.主题不明确
建立传统数据库的目的是为了满足事物处理的需求,库和表的定义完全以此为基础进行,对数据分析而言缺少明确的主题。
③、分析处理效率低
4、数据仓库的定义
数据仓库之父Bill Inmon在1991年出版的“Building the Data Warehouse”(《建立数据仓库》) 数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented )、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策和信息的全局共享。
注意:
——数据仓库是一个过程而不是一个项目;
——数据仓库是一个环境,而不是 一件产品。
数据仓库提供用户用于决策支持的当前和历史数据,这些数据在传统的操作型数据库中很难或不能得到。数据仓库技术是为了有效的把操作形数据集成到统一的环境中以提供决策型数据访问的各种技术和模块的总称。所做的一切都是为了让用户更快更方便查询所需要的信息,提供决策支持 。
5、数据仓库的特点
1)面向主题的
2)集成的 :数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,
3)反映历史变化:数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测
4)相对稳定的 :数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。
6、传统数据库与数据仓库的比较
这里写图片描述

二、OLTP与OLAP

1、OLTP(OnLine Transaction Processing)—联机事务处理系统,它是事件驱动、面向应用的。
例如银行的储蓄系统就是一个典型的OLTP系统。
其特点是:
对响应时间要求非常高;
用户数量非常庞大,主要是操作人员;
数据库的各种操作基于索引进行
关系数据库满足了联机事务处理(OLTP)的要求
2、OLAP(OnLine Analytical Processing)-联机分析处理是基于数据仓库的信息分析处理过程,是数据仓库的用户接口部分。
OLAP系统是跨越部门、面向主题的。
其基本特点是:
基础数据来源于信息系统中的操作数据;
响应时间合理;
用户数量相对较少,主要是业务决策与管理人员;
数据库的各种操作不能完全基于索引进行。
这里写图片描述
3、典型的OLAP操作
上卷 (drill-up,roll up): 概括数据
通过沿一个维的概念分层向上攀升或者通过维归约,对数据立方进行聚集
下钻 (Drill down ,roll down): 上卷的逆操作
从高层概括到底层概括,从不太详细到更加详细的数据
给数据添加更多细节,添加新的维到立方体来实现
切片和切块(Slice and dice):投影和选择
转轴或旋转(Pivot or rotate):
转换立方体的视角, 可视化, 从3D 到 2D 平面序列
其他操作
钻过(drill across): 涉及多个事实表的查询
钻透(drill through): 钻透立方体的底层,到后端关系表 (using SQL)

三、数据集市与数据仓库的区别

这里写图片描述

1 0
原创粉丝点击