数据仓库的设计过程

来源:互联网 发布:zblog cms主题 编辑:程序博客网 时间:2024/05/17 22:56

     “如何设计数据仓库?”数据仓库可以使用自顶向下方法、自底向上方法,或二者结合的混合
方法设计。自顶向下方法由总体设计和规划开始。当技术成熟并已掌握,对必须解决的商务问题清
楚并已很好理解时,这种方法是有用的。自底向上方法以实验和原型开始。在商务建模和技术开发
的早期阶段,这种方法是有用的。这样可以以相当低的代价前进,在作出重要承诺之前评估技术的
利益。在混合方法下,一个组织既能利用自顶向下方法的规划的、战略的自然特点,又能保持象自
底向上方法一样快速实现和立即应用。
      从软件工程的观点,数据仓库的设计和构造包含以下步骤:规划、需求研究、问题分析、仓库
设计、数据集成和测试,最后,配置数据仓库。大的软件系统可以用两种方法开发:瀑布式方法和
螺旋式方法。瀑布式方法在进行下一步之前,每一步都进行结构化和系统的分析,就象瀑布一样,
从一级落到下一级。螺旋式方法涉及功能渐增的系统的快速产生,相继版本之间的间隔很短。对于
数据仓库,特别是对于数据集市的开发,这是一个好的选择,因为其周转时间短,能够快速修改,
并且新的设计和技术可以快速接受。

      一般地,数据仓库的设计过程包含如下步骤:
1 选取待建模的商务处理,例如,订单、发票、出货、库存、记帐管理、销售、和一般分类帐。
如果一个商务过程是有组织的,并涉及多个复杂的对象,应当选用数据仓库模型。然而,如果
处理是部门的,并关注某一类商务处理,则应选择数据集市。
2 选取商务处理的粒度。对于处理,该粒度是基本的、在事实表中是数据的原子级。例如,单个
事务、一天的快照等。
3 选取用于每个事实表记录的维。典型的维是时间、商品、顾客、供应商、仓库、事务类型和状
态。
4 选取将安放在事实表中的度量。典型的度量是可加的数值量,如dollars_sold 和units_sold。
由于数据仓库的构造是一个困难、长期的任务,它的实现范围应当清楚地定义。一个初始的数
据仓库的实现目标应当是特定的、可实现、可测量的。这涉及时间和预算的分配,一个组织的哪些
子集要建模,选择的数据源数量,提供服务的部门数量和类型。


     一旦设计和构造好数据仓库,数据仓库的最初使用包括初始化装入、首次展示规划、培训和定
位。平台的升级和管理也要考虑。数据仓库管理包括数据刷新、数据源同步、规划故障恢复、管理
存取控制和安全、管理数据增长、管理数据库性能、以及数据仓库的增强和扩充。范围管理包括控
制查询、维、报告的数量和范围,限制数据仓库的大小,或限制进度、预算和资源。

 

 

      对于开发数据仓库系统,一个推荐的方法是以递增、进化的方式实现数据仓库。
第一,在一个合理短的时间(如,一、两个月)内,定义一个高层次的企业数据模型,在不同的主
题和可能的应用之间,提供企业范围的、一致的、集成的数据视图。这个高层模型将大大减少今后
的集成问题,尽管在企业数据仓库和部门数据集市的开发中,它还需要进一步提炼。

第二,基于上述相同的企业数据模型,可以并行地实现独立的数据集市和企业数据仓库。

第三,可以构造分布数据集市,通过网络中心服务器集成不同的数据集市。

最后,构造一个多层数据仓库,这里,企业仓库是所有仓库数据的唯一管理者,仓库数据分布在一些依赖的数据集市中。

 

原创粉丝点击