数据仓库技术的简单阐述

来源:互联网 发布:linux设置静态ip 编辑:程序博客网 时间:2024/05/09 10:03

数据仓库技术的简单阐述
数据仓库定义:
数据仓库是在企业管理和就决策中
1.面向主题的
2.集成的
3.与时间相关的
4.不可修改的数据集合

数据仓库模型三层次
1.概念模型:
概念模型是对真实世界中问题域内的事物的描述
表示概念模型最常用的是:“实体-关系”图
E-R图主要是由实体、属性和关系三个要素构成的。
2.逻辑模型:
逻辑数据模型,反映的是系统分析设计人员对数据存储的观点,是对概念数据模型进一步的分解和优化。
数据仓库的逻辑模型(数据的逻辑结构)包含有:多维模型、关系模型、层次模型等。数据仓库的逻辑模型描述数据仓库的主要的逻辑实现,每个主题对应的模式定义。
3.物理模型
逻辑模型的具体体现,如物理存取方式、数据存储结构、数据存放位置以及存储分配等。在设计数据仓库的物理模型,需要考虑一些提高性能的技术,如表分区,建立索引等。(数据在数据库中的存取方式)

数据仓库逻辑模型-多维模型
对数据仓库逻辑模型的讨论大多集中在逻辑模型,其中最常用的是多维模型。
维:关注数据的特定角度(例如企业关注不同销售数据随时间的变化情况,时间就是一个维)
维的层次:人们观察数据的某个特定角度还可以存在细节程度不同的多个描述,这就是维的层次。(如:时间维:年份、季度、月份、周、天)
维成员:维的一个取值成为该维的一个成员。如果一个维是多层次的,那么该维的成员就是在不同层次取值的组合。(例:某年某月某日)
度量:描述要分析的数值。(例:用电量、话费、用户数量)
粒度:粒度是数据仓库的数据单位中保存的数据的细化或综合程度的级别。粒度大小影响数据量的大小,同时影响数据 仓库所能回答的查询类型。粒度越小,数据量越大,同时数据所能回答查询的能力会随之提高。

原创粉丝点击