数据仓库学习笔记二

来源:互联网 发布:微课软件下载 编辑:程序博客网 时间:2024/06/08 10:56

数据模型

有三个层次的数据建模:高层建模( E R D,实体关系层),中间层建模( D I S,数据项集),
底层建模(物理层)。

高层建模
高层建模的特点是实体和关系,如图3 - 1 0所示。实体的名字放在椭圆内。实体间的关系
用箭头描述。箭头的方向和数量表示关系的基数,只有直接的关系才标志。这样做以后,关
系的传递依赖就可以最小化。

图1

中间层数据模型

高层数据模型建好后,下一步就是建中间层模型( D I S )。对高层模型中标识的每个主要的
主题域,或实体,都要建一个中间层模型,如图3 - 1 3所示。高层数据模型标识了四个实体或
主要主题域,每个主题域再扩展成自己的中间层模型。

图2

有趣的是,只有在很少的情况下,所有的中间层模型能一次全部建好。某个主要主题域
的中间层数据模型扩展后,这个中间层模型逐渐增大,而此时模型的其他部分仍然保持不变。
图3 - 1 4显示了中间层数据模型的构造。这里有四个基本的构造:
■ 初始数据组。
■ 二次数据组。
■ 连接件,表示主要主题域间的数据关系。
■ 数据“类型”。
初始数据组对每个主要主题域存在且只存在一次。它有在每个主要主题域只出现一次的
属性。同所有的数据组一样,初始数据组有属性和键码。

二次数据组有对每个主要主题域可以存在多次的属性。从初始数据组有一直线段指向二
次数据分组。有多少可以出现多次的不同数据组,就含有多少二次数据组。
模型的第三个构造是连接件。它将数据从一个组到另一个组联系起来。一个E R D层确定
的关系导致了D I S层的确认。用来指示连接件的惯例是一个有下划线的外键。
模型的第四个构造是数据的“类型”。数据的“类型”由指向右边数据组的线段指示。左
边的数据组是超类型,右边的数据组是子类型。
这四个数据模型构造用来标识数据模型中的数据属性和这些属性间的关系。当一个关系
在E R D层标识以后,在D I S层就用一对连接件关系来表现,图3 - 1 5就指出了其中一对。
在E R D,在顾客( C U S TO M E R )和帐户( A C C O U N T )之间的关系已经表示出来。对于帐户的
D I S层,在帐户下有一个连接件。这说明一个帐户可能附有多个顾客。在顾客的D I S层,顾客
下对应的关系没有表示出来。在顾客的D I S层,应该有一个到帐户的连接件,说明一个顾客可
以有一个或多个帐户。

在图3

图4

图5

到右边的两条线说明有两个标准“类型”。一条线是活动类型—或者是存款或者是提款。另
一条线是活动—或者是AT M活动或者是出纳活动。两种类型的活动都包括下面的交易:
■ AT M存款。
■ AT M提款。
■ 出纳存款。
■ 出纳提款。
这个图表的另一个特点是公用数据在左边,所有的独有数据在右边。例如,日期( d a t e)和
时间(t i m e)属性对于所有交易是公用的。但是,钱箱( c a s h b o x )的结算却是出纳独有的活动。
由数据模型产生的和数据模型物理数据表的关系如图3 - 1 8所示。一般来讲,数据模型的
每个数据组都产生一个在数据库设计过程中定义的表。假设下面一种情况,两个交易产生一
些表条目,如图所示。下面的两个交易产生图中的物理表条目。
■ AT M处理提款,在1月2日,下午1 : 3 1。
■ 出纳处理存款,在1月5日,下午3 : 1 5。
两个交易生成5个不同表的6个条目。
与企业E R D是由反映不同用户群体的不同E R D所建成的一样,企业D I S由多个D I S建成,
如图3 - 1 9所示。在进行对个别用户的访问或J A D (联合应用程序设计)会议时,就要生成一个
D I S和一个E R D。小范围的D I S和其他所有D I S一起形成一个反映企业观点的D I S。

图 6


原创粉丝点击