谈谈数据仓库架构的发展和分类

来源:互联网 发布:php 闭包 外部变量 编辑:程序博客网 时间:2024/05/22 14:40

整理于2008年02月13日,2009年10月22日迁移至此。


在此不做评述,仅供参考!
#A4Y*]9O~4Em7D4HgM@K6517以下内容均引自于ttnn网站,详细链接如下:
Xv,I2s#OTf cY6517http://groups.google.com/group/ttnn?lnk=li

"Q8E5E;~+f2P65171ITPUB个人空间%`3c[io+_n:e1S
发件人: Jerome - 查看个人资料ITPUB个人空间s7L2qw5u
日期: 2006年12月10日(星期日) 下午4时36分
&AK/G/_�s6517电子邮件: "Jerome" <ston...@gmail.com>
any/PK(n4L6517尚未评分
vhb7k7_"xu6517评级:
ZDm#znfz5uK3A6517显示选项
:Z1@{|;m7B:u_6517回复 | 答复作者 | 转发 | 打印 | 显示个别帖子 | 显示原始邮件 | 报告滥用行为 | 查找此作者的帖子ITPUB个人空间2Am Sdcem%Zb,k

+j#Xj3FRa1? X6517最近大家对数据仓库架构的讨论又多了起来,我在这里对一些架构进行一下简单的整理。目的是给大家树立一个靶子,大家可以在这篇文章后尽情的批判和补充。ITPUB个人空间j:Z*{Cue5nE
我把我听说过的架构都归整在一起,分了六类,其中和很多说明是我个人的理解,不见得正确,大家多多指导。ITPUB个人空间mY6kwN*P}:TLy
1.独立的数据集市架构(Independent data mart architecture)
:xz"r3[`.y4j&V6517独立的数据集市架构有时也称为独立的数据仓库架构,应该是出现最早的架构方式,也是很常见的方式。特别是对于中小企业、中小开发公司,出于成本和见效快的考虑都会采用这种架构方式。大家对这种架构方式一定也很熟。
jk5u/A!dF!y{y Ym)^6517这种架构方式的缺点也很明显,不是企业内一致的数据,产生信息孤岛。当然我企业就是很小,就一个系统,不用整合,一个数据集市足以的情况下采用这种方式也没什么。先期小投资,让企业看看效果,以后发展大了再考虑重新建立数据仓库。ITPUB个人空间 lx;@,y KK&U4y9k6f
2.联邦式数据仓库架构(Federated data warehouseITPUB个人空间 |6Ga0{WfS]
architecture)ITPUB个人空间6m$M*W0K3yU,Z1a
这种架构方式我之前写过一点简单介绍,当然,我对这种方式也不熟,介绍的也是乱七八糟。我想它的出现应该是由于,企业发展的初期建立了几个独立的数据集市架构,后来发现这样不行,数据没整合,要解决信息孤岛得想办法。推倒重建当然好,不过投入太大,以前的数据集市还想用,怎么办。于是,想出另一种办法,在各个独立的数据集市间建立一些对照表,在不推倒它们的基础上能进行一下数据交换。后来,慢慢发现,早想好整合策略,直接这样建数据仓库也可以,于是,地域联邦、功能联邦的概念也就都提出来了。
PAcm8e?~h6517联邦架构的缺点也很明显,除非建立之初就采用类似总线架构的方法实现数据一致,否则很容易出现数据不一致,导致整合的不彻底。如果之初就考虑好的话,和总线架构的差别就不大了。当然,对于临时解决企业原有独立数据集市的数据交换问题,联邦架构还是有一定作用的。ITPUB个人空间@ODpikGtb
3.集中式架构(Centralized architecture)
.Mn|8aj6517集中式架构方式的出现,标识着数据仓库架构已经进入比较成熟的时期。他的架构方式是建立物理的EDW,即中心数据仓库,数据都集中的EDW中,应用和分析程序都在EDW中进行访问,数据是全企业内一致的。随着ROLAP的发展,在这种集中式架构中建立ROLAP开始比较流行,常见的MicroStrategy公司的解决方案就是在EDW中建立ROLAP。ROLAP单独建表保存元数据,只保存维度模型的关系,不保存维度模型的数据,由MicroStrategy的应用去解析,加上应用服务器作为缓存,速度还可以。ITPUB个人空间4zJ!` v:`
这种方式也有一些缺点,如扩展能力差,对EDW所在的RDBMS要求太高,随着数据量和分析的逐步增长,就不得不再把数据进行分离。如果在EDW的基础上进行数据分离,为不同的应用单独建立数据集市或者挖掘仓库,集中式结构也就演变成Hub
g?E;W`7N;S)~S6517and Spoke架构方式。ITPUB个人空间X�dh�j"IGl1|"jD
4.集线器和车轮辐条架构(Hub and spoke architecture)ITPUB个人空间4H-Ti(tjM/JO!q
其实我更想直接称之为企业信息工厂架构(Corporate
/;X|_'sjEQ:s+q6517information factoryITPUB个人空间5v;M+`'{:pvQ7G!Z
architecture),集线器和车轮辐条架构听起来比较别扭,叫起来也不响亮。而企业信息工厂应该是这种架构方式的最出色的代表。从名称我们也能大概猜个差不多,中心数据仓库EDW从各个源系统收集数据,将数据提供给各个数据集市和挖掘仓库,功能和集线器很相似,所以称为Hub。如果大家把图画出来,可能会更形象一些,EDW和各个源数据库及数据集市、挖掘仓库之间都连一条线,看起来就向一个车轮,这些连线就像车轮辐条,所以称为Spoke。而这种采用中心数据仓库EDW集成数据,再分散到各个数据集市使用数据的方式就形象的称为HubITPUB个人空间DA3y+D%_V
and spoke architecture。ITPUB个人空间/{,j^/x)R
这种架构方式当然也有缺点,虽然是在集成的中心数据仓库EDW上建立数据集市,但是这些数据集市之间还是不能进行数据交换的,大家建立的方法和ETL程序都会不同,各个数据集市之间的数据不见得的是一致的。而且这种架构方式开始变得复杂。
p(Y"n2t:o;Ej]7s[g65175.总线架构(Bus architecture)ITPUB个人空间6jK�Q%v;Cm:kK9q3B~
总线架构和Hub and spoke
n[6x&r4j'Cf[6517architecture的最大区别,应该是维度建模的原子层和一致性维度的建立。正因为预先建立的总线架构和一致性维度,所以这种架构可以保证在逐步建立数据集市的过程中还能保证企业数据的一致性。总线架构是数据仓库架构方式从复杂走向简单的一步,将维度建模的数据仓库原子层和数据集市合而为一,一层就把数据仓库建立好的,还能支持各种数据集市分析应用。
e8y:}/b:v-AI6517当然总线架构也有缺点,中心数据仓库以维度模型保存,对于特殊的非维度型分析应用会有局限性,支持的不好。ITPUB个人空间!O(IN�@5}|l9w!/ n5O
6.复合式架构(Composite architecture)
&J

原创粉丝点击