第二节 数据仓库简介

来源:互联网 发布:linux重启后文件丢失 编辑:程序博客网 时间:2024/05/17 06:25

1,数据仓库
(1)数据仓库是一个面向主题的、集成的、不可更新的、随时间不变化的数据集合。他用于支持企业或组织的决策分析处理
[wikipedia]数据仓库是一种资讯系统的资料储存理论,此理论强调利用某些特殊资料储存方式,让所包含的资料,特别有利于分析处理,以产生有价值的资讯并依此作决策。
利用数据仓库方式所存放的资料,具有一但存入,便不随时间而更动的特性,同时存入的资料必定包含时间属性,通常一个数据仓库皆会含有大量的历史性资料,并利用特定分析方式,自其中发掘出特定资讯。
(2)数据仓库特性[wikipedia]
● 主题导向(Subject-Oriented)
有别于一般OLTP系统,数据仓库的资料模型设计,着重将资料按其意义归类至相同的主题区(subject area),因此称为主题导向。举例如Party、Arrangement、Event、Product等。
● 集成性(Integrated)
资料来自企业各OLTP系统,在数据仓库中是集成过且一致的。
● 时间差异性(Time-Variant)
资料的变动,在数据仓库中是能够被纪录以及追踪变化的,有助于能反映出能随着时间变化的资料轨迹。
● 不变动性(Nonvolatile)
资料一旦确认写入后是不会被取代或删除的,即使资料是错误的亦同。

2,数据仓库的结构和建立过程
数据源:业务数据系统、文档资料、其他数据
数据存储及管理:E(抽取)T(转换)L(加载)
数据仓库引擎:不同服务器提供不同的服务
前端涨势:数据查询,数据报表,数据分析,各类应用

数据仓库的结构和建立过程

3,OLTP应用与OLAP应用
(1)联机交易处理(OLTP, Online transaction processing)是指通过信息系统、电脑网络及数据库,以在线交易的方式处理一般即时性的作业数据,和更早期传统数据库系统大量批量的作业方式并不相同。OLTP通常被运用于自动化的数据处理工作,如订单输入、金融业务…等反复性的日常性交易活动。 和其相对的是属于决策分析层次的联机分析处理(OLAP)。
(2)联机分析处理(英语:On-Line Analytical Processing,简称OLAP),是一套以多维度方式分析数据,而能弹性地提供积存(英语:Roll-up)、下钻(英语:Drill-down)、和透视分析(英语:pivot)等操作,呈现集成性决策信息的方法,多用于决策支持系统、商务智能或数据仓库。其主要的功能,在于方便大规模数据分析及统计计算,对决策提供参考和支持。与之相区别的是联机交易处理(OLTP)。
● OLAP需以大量历史数据为基础配合上时间点的差异并对多维度及汇整型的信息进行复杂的分析。
● OLAP需要用户有主观的信息需求定义,因此系统效率较佳。
OLAP的概念,在实际应用中用有着广义和狭义两种不同的理解。广义上的理解与字面意思相同,即针对于OLTP而言,泛指一切不对数据进行输入等事务性处理,而基于已有数据进行分析的方法。但更多的情况下OLAP是被理解为其狭义上的含义,即与多维分析相关,基于立方体(CUBE)计算而进行的分析。

4,数据仓库常用模型

事实表:即基础表
维度表:根据一个或者多个字段进行汇总,处理,排序等出来的表

(1)星型模型:是数据集市维度建模中推荐的建模方法。星型模型是以事实表为中心,所有的维度表直接连接在事实表上,像星星一样。星型模型的特点是数据组织直观,执行效率高。因为在数据集市的建设过程中,数据经过了预处理,比如按照维度进行了汇总,排序等等,数据量减少,执行的效率就比较高。
这种模型的特征就是所有的维度表直接连接在事实表上。

(2)雪花模型:是维度建模中的一种选择。雪花模型的维度表可以拥有其他维度表的,虽然这种模型相比星型模型更规范一些,但是由于这种模型不太容易理解,维护成本比较高,而且性能方面需要关联多层维表,性能也比星型模型要低。所以一般不是很常用。
这种模型的特征就是维度表可以拥有其他维度表。

原创粉丝点击