数据仓库的定义

来源:互联网 发布:手机淘宝怎样更改密码 编辑:程序博客网 时间:2024/05/16 01:27

社会的需求和计算机技术的不断发展,人们开始尝试对原来数据库中的数据进行再加工,形成一个综合的、面向分析的环境,以支持科学决策的产生。由此,数据仓库的思想、技术、产品逐渐开始形成。对于什么是数据仓库,许多人提出了不同的看法。数据仓库概念的创始人W.H.Inmon在《Building the Data WareHouse》一书中指出:"数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,用以支持经营管理中的决策制定过程。"

  在《Building Data Warehouse》一书中,W.H.Inmon首次提出了数据仓库的概念。数据仓库DW(Data Warehouse)就是一个用以更好的支持企业或组织的决策分析处理的、面向主题的、集成的、不可更新的、随时间不断变化的数据集合。DW中的数据是按主题组织的,主题是一个抽象的概念,是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象,在逻辑意义上,它对应企业中某一宏观分析领域所设计的分析对象,按主题组织数据更有利于决策分析。另外,DW中的数据是高度集成的,不同来源的数据在进入DW之前,必须转换为相同的数据格式、度量单位、存储方式,为复杂查询提供统一的视图,提高了系统处理性能。DW中还保存了大量的历史数据,分析人员可以此为依据,对历史数据进行跟踪和详细分析,以把握企业未来发展趋势。

  虽然还没有形成统一的定义,但以上观点都或多或少地指出了数据仓库有以下几个特点:数据仓库中的数据是面向主题的、集成的、不可更新的(稳定的)、随时间不断变化的,建立数据仓库的目的是为了更好的支持决策的制定。

  以1992年W.H.Inmon出版《Building the Data Warehouse》为标志,数据仓库以惊人的速度发展起来,Inmon也被誉为 "数据仓库之父"。

  W.H.Inmon对数据仓库的定义是:"数据仓库是支持决策过程的、面向主题的、集成的、随时间变化的、持久的数据集合。"

  (1) 面向主题

  主题是一个抽象的概念,是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象,是针对某一决策问题而设置的。面向主题的数据组织方式,就是在较高层次上对分析对象的数据的一个完整的、统一的、一致的描述,能完整、统一地刻画各个分析对象所涉及的企业的各项数据,以及数据之间的联系。
  目前,数据仓库的实现主要是基于关系数据库,每个主题由一组关系表或逻辑视图实现。这些表和视图的内容与原来各个运行系统数据源的数据本质上是一致的,但为了方便支持分析数据处理,对数据结构进行了重组,其中还可能会增加一些数据冗余。

  (2) 集成的数据

  数据仓库中存贮的数据是从原来分散的各个子系统中提取出来的,但并不是原有数据的简单拷贝,而是经过统一、综合。其一,数据仓库的数据不能直接从原有数据库系统中得到。原有数据库系统记录的是每一项业务处理的流水帐,这些数据不适合于分析处理,在进入数据仓库之前必须经过综合、计算,抛弃分析处理不需要的数据项,增加一些可能涉及的外部数据。其二,数据仓库每一个主题所对应的源数据在原分散数据库中有许多重复或不一致的地方,必须将这些数据转换成全局统一的定义,消除不一致和错误的地方,以保证数据的质量。否则,对不准确,甚至不正确的数据分析得出的结果将不能用于指导企业作出科学的决策。
  对源数据的集成是数据仓库建设中最关键,也是最复杂的一步。

  (3) 数据不可更新

  从数据的使用方式上看,数据仓库的数据不可更新,这是指当数据被存放到数据仓库中以后,最终用户只能通过分析工具进行查询、分析,而不能修改其中存贮的数据,也就是说,数据仓库的数据对最终用户而言是只读的。由于数据仓库的查询数据量往往很大,所以对数据查询、查询界面的友好和数据的表示提出了更高的要求,因为对数据仓库进行查询分析的用户多是企业的高层领导,他们是所在领域的专家,但对计算机却不一定熟悉。
  从数据的内容上看,数据仓库存贮的是企业当前的和历史的数据,在一定的时间间隔以后,当前的数据需要按一定的方法转换成历史数据,年代久远的、查询率低的数据的需要从数据仓库脱离到廉价慢速设备(如磁带)上,对分析处理不再有用的数据需要从数据仓库中删除。但这些工作是由系统管理员来做,或由系统自动完成。因此,也可以说数据仓库在一定时间间隔内是稳定的。

  (4) 数据随时间不断变化

  数据仓库数据的不可更新是针对应用而言,即用户进行分析处理时不对数据进行更新操作,但不是说,数据从进入数据仓库以后就永远不变。数据仓库中的数据随时间变化而定期地被更新,每隔一段固定的时间间隔后,运作数据库系统中产生的数据被抽取、转换以后集成到数据仓库中,而数据的过去版本仍被保留在数据仓库中,如同"定期摄影术",每隔一周、一月或适当的间隔就照一张像;随着时间的变化,数据以更高的综合层次被不断综合,以适应趋势分析的要求;当数据超过数据仓库的存储期限,或对分析不在有用时,这些数据将从数据仓库中删去。
  关于数据仓库的结构信息、维护信息被保存在数据仓库的元数据中,数据仓库维护工作由系统根据元数据中的定义自动进行,或由系统管理员定期维护,用户不必关心数据仓库如何被更新的细节。
  建立数据仓库并不是要取代原有的运作数据库系统,建立数据仓库的目的是为了将企业多年来已经收集到的数据按一个统一、一致的企业级视图组织、存贮,对这些数据进行分析,从中得出有关企业经营好坏、客户需求、对手情况、以后发展趋势等有用信息,帮助企业及时、准确地把握机会,以求在激烈的竞争中获得更大的利益。

 
原创粉丝点击