数据库和数据仓库

来源:互联网 发布:淘宝联盟怎么查订单号 编辑:程序博客网 时间:2024/06/07 08:24

数据库

定义

数据库就是用来存储数据的,存数据肯定不能乱存,要有一定的组织,所以需要分类等。数据库要尽可能减少冗余(几大范式)、较高的数据独立性(不会局限于应用,通过数据增删查改来统一管理)、易扩展性和在一定范围内为多个用户共享

三个层次

以内模式为框架所组成的数据库叫做物理数据库;以概念模式为框架所组成的数据叫概念数据库;以外模式为框架所组成的数据库叫用户数据库。

⑴ 物理数据层。

它是数据库的最内层,是物理存贮设备上实际存储的数据的集合。这些数据是原始数据,是用户加工的对象,由内部模式描述的指令操作处理的位串、字符和字组成。

⑵ 概念数据层。

它是数据库的中间一层,是数据库的整体逻辑表示。指出了每个数据的逻辑定义及数据间的逻辑联系,是存贮记录的集合。它所涉及的是数据库所有对象的逻辑关系,而不是它们的物理情况,是数据库管理员概念下的数据库。

⑶ 用户数据层。

它是用户所看到和使用的数据库,表示了一个或一些特定用户使用的数据集合,即逻辑记录的集合。

数据库不同层次之间的联系是通过映射进行转换的。

数据仓库

定义

数据仓库存在的原因是一个“集团”有很多“分部”,分部有各自的数据库,总部需要各分部的“汇总”信息来做“决策”,这时候数据仓库就出现了,数据仓库主要放的是汇总的决策信息。

数据仓库之父比尔·恩门(Bill Inmon)在1991年出版的“Building the Data Warehouse”(《建立数据仓库》)一书中所提出的定义被广泛接受,数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。

数据仓库是一个过程而不是一个项目;数据仓库是一个环境,而不是一件产品。数据仓库提供用户用于决策支持的当前和历史数据,这些数据在传统的操作型数据库中很难或不能得到。数据仓库技术是为了有效的把操作形数据集成到统一的环境中以提供决策型数据访问。基于数据仓库的决策支持系统由三个部件组成:数据仓库技术,联机分析处理技术和数据挖掘技术。所做的一切都是为了让用户更快更方便查询所需要的信息,提供决策支持。

特点

1.面向主题和集成的:数据仓库是决策层面有目的性的集成来自于分散的操作型数据,将所需数据从原来的数据中抽取出来,进行加工与集成,统一与综合之后才能进入数据仓库;

2.不可更新的:是”汇总“信息不是原始数据不需要更新。

3.大容量的:时间序列数据集合通常都非常大。

4.非规范化的:Dw数据可以是而且经常是冗余的。

5.元数据的:将描述数据的数据保存起来。

6.高效、高质量的:给”决策“提供依据必须高效、高质量。

数据库和数据仓库的区别

1.数据源和目标不同:数据库的数据源通常是来之于”生活“,目标是将生活中的数据存储和管理,而数据仓库的数源来之于数据库它是存储分析和汇总数据库数据的“结果”为了决策使用。

2.不修改:数据仓库数据通常情况下不会修改。

3.冗余:数据库设计的时候会尽量避免冗余,而数据仓库设计注重于决策不会刻意避免冗余。

4.与时间相关:数据库得数据不强调有时间信息,但是数据仓库的数据强调,因为决策大部分需要关注时间因素。

1 0