数据仓库的设计过程

来源：互联网发布：zblog cms主题编辑：程序博客网时间：2024/05/17 22:56

“如何设计数据仓库？”数据仓库可以使用自顶向下方法、自底向上方法，或二者结合的混合
方法设计。自顶向下方法由总体设计和规划开始。当技术成熟并已掌握，对必须解决的商务问题清
楚并已很好理解时，这种方法是有用的。自底向上方法以实验和原型开始。在商务建模和技术开发
的早期阶段，这种方法是有用的。这样可以以相当低的代价前进，在作出重要承诺之前评估技术的
利益。在混合方法下，一个组织既能利用自顶向下方法的规划的、战略的自然特点，又能保持象自
底向上方法一样快速实现和立即应用。
从软件工程的观点，数据仓库的设计和构造包含以下步骤：规划、需求研究、问题分析、仓库
设计、数据集成和测试，最后，配置数据仓库。大的软件系统可以用两种方法开发：瀑布式方法和
螺旋式方法。瀑布式方法在进行下一步之前，每一步都进行结构化和系统的分析，就象瀑布一样，
从一级落到下一级。螺旋式方法涉及功能渐增的系统的快速产生，相继版本之间的间隔很短。对于
数据仓库，特别是对于数据集市的开发，这是一个好的选择，因为其周转时间短，能够快速修改，
并且新的设计和技术可以快速接受。

一般地，数据仓库的设计过程包含如下步骤：
1 选取待建模的商务处理，例如，订单、发票、出货、库存、记帐管理、销售、和一般分类帐。
如果一个商务过程是有组织的，并涉及多个复杂的对象，应当选用数据仓库模型。然而，如果
处理是部门的，并关注某一类商务处理，则应选择数据集市。
2 选取商务处理的粒度。对于处理，该粒度是基本的、在事实表中是数据的原子级。例如，单个
事务、一天的快照等。
3 选取用于每个事实表记录的维。典型的维是时间、商品、顾客、供应商、仓库、事务类型和状
态。
4 选取将安放在事实表中的度量。典型的度量是可加的数值量，如dollars_sold 和units_sold。
由于数据仓库的构造是一个困难、长期的任务，它的实现范围应当清楚地定义。一个初始的数
据仓库的实现目标应当是特定的、可实现、可测量的。这涉及时间和预算的分配，一个组织的哪些
子集要建模，选择的数据源数量，提供服务的部门数量和类型。

一旦设计和构造好数据仓库，数据仓库的最初使用包括初始化装入、首次展示规划、培训和定
位。平台的升级和管理也要考虑。数据仓库管理包括数据刷新、数据源同步、规划故障恢复、管理
存取控制和安全、管理数据增长、管理数据库性能、以及数据仓库的增强和扩充。范围管理包括控
制查询、维、报告的数量和范围，限制数据仓库的大小，或限制进度、预算和资源。

对于开发数据仓库系统，一个推荐的方法是以递增、进化的方式实现数据仓库。
第一，在一个合理短的时间（如，一、两个月）内，定义一个高层次的企业数据模型，在不同的主
题和可能的应用之间，提供企业范围的、一致的、集成的数据视图。这个高层模型将大大减少今后
的集成问题，尽管在企业数据仓库和部门数据集市的开发中，它还需要进一步提炼。

第二，基于上述相同的企业数据模型，可以并行地实现独立的数据集市和企业数据仓库。

第三，可以构造分布数据集市，通过网络中心服务器集成不同的数据集市。

最后，构造一个多层数据仓库，这里，企业仓库是所有仓库数据的唯一管理者，仓库数据分布在一些依赖的数据集市中。