如何用数据仓库管理海量数据?直接访问数据仓库数据时的4个限制

来源:互联网 发布:网络拉丝是什么意思 编辑:程序博客网 时间:2024/06/06 00:55
有时候数据仓库中需要进行管理的大量数据是一个重要问题。建立简要记录是大量数据管理的一种有效技术。在把操作型环境中的详细记录转入数据仓库中简要记录的过程中,数据量的降低是显著的。一般通过建立简要记录可以使数据量降低2~3个数量级。由于这种可能性,创建简要记录是每一个数据体系结构设计人员手中很强有力的一种技术。事实上,与其他设计或数据管理技术相比较,要想在数据仓库中有效地管理大量数据,那么建立简要记录应该是数据仓库体系结构设计者应该考虑的首选技术和最强有力的技术。


然而,采用这种方式也有其不足之处。当采用简要记录方式的时候,必须清楚的是这样将会失去数据仓库的一些能力或功能。首先,只要实现数据的聚集,信息的详细程度就会降低。但有时,详细程度的降低不一定是坏事。这时的设计者必须能够保证详细程度的降低对于利用该数据仓库进行决策支持的分析人员来讲是无关紧要的。数据仓库构造者保证所丢失的细节并不特别重要的第一道防线(最简单有效的)就是重复建立简要记录。这样设计人员就有了很好地控制改变的灵活性。简要记录内容设计的第一遍为第二遍提供依据,依此类推。


只要数据仓库开发过程中每一遍走得很小,很快。就不至于在简要记录中忽略对终端用户来讲是重要的某种要求。但是当简要记录的创立和开发的第一遍走得非常大,设计者可能会把他们自己带入危险的境地。此时,由于数据仓库相当大,它的内容不能被仔细改动而导致重要细节的忽略,使设计人员可能使自己陷于难堪的境地。


可以保证重要细节在简要记录的创建过程中不被丢失的第二种方法(可以和第一种共同使用)是在建立简要记录的同时建立历史细节的备用层。

这种备用的细节并不会被经常用到。它被存储在较慢的便宜的顺序读取的介质上。在任何情况下都不容易访问到,使用起来相当麻烦。但是一旦需要的话,细节确实是存在的。当管理部门确实需要这些信息的时候,它们总可以被找到,尽管需要花费一些时间和金钱。


数据仓库数据的直接访问


在那些最简单的动态的数据回流,即由操作型环境对数据仓库环境进行直接的数据访问。在操作型环境中向属于数据仓库的数据提出了访问请求。这个请求被传送到数据仓库中,然后找到所需要的数据,接着再传输到操作型环境中。很明显,从动态的角度来看,传送过程的实现不会是简单的。



在直接访问数据仓库数据的过程中,有一些严格的、不能让步的限制。


下面列出了一些这类限制。


■ 从响应时间的角度来讲,这个请求必须能够忍受冗长的响应时间。它可能在经过24个小时后才被响应,这意味着请求数据仓库数据的操作处理并不具有在线特性。
■ 所请求的数据量必须是最小量的。数据的传输是以字节计的,而不是兆字节或千兆字节。
■ 管理数据仓库所用到的技术必须与管理操作型环境所用到的技术一致,如容量、协议等。
■ 从数据仓库取得的准备传输到操作型环境的数据必须不做或做最小的格式化。

这些条件限制了数据从数据仓库到操作型环境的数据传送。很容易明白在数据的直接访问时为什么仅仅有少量的数据回流。


原创粉丝点击