数据挖掘-第三课-数据仓库和数据挖掘的OLAP技术

来源:互联网 发布:千牛是干什么的软件 编辑:程序博客网 时间:2024/05/01 03:12

(一)什么是数据仓库

数据库的定义很多,但却很难有一种严格的定义

1、他是一个提供决策支持功能的数据库

2、为统一的历史数据分析提供坚实的平台,对信息处理提供支持

           大众定义:数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合

,支持管理部门的决策过程。

            数据集成:一个数据仓库是通过集成多个异种数据源来构成的

            时变:数据仓库的时间范围比操作数据库系统要长的多。

            口   操作数据库系统:主要保存当前数据

            口   数据仓库:从历史的角度提供信息

            口    数据仓库中的每一个关键结构都隐式和显式地包含时间元素,而操作数据库中的关联结构可能就不包括时间元素。

            数据不容易丢失:尽管数据仓库中的数据来自于操作数据库,但他们却是在物理上分离保存的。

            口    操作数据库的更新操作不会出现在数据仓库环境下

3  数据仓库与操作数据系统

口  操作数据库系统(DBMS)的主要任务是联机事务处理OLTP

口   数据仓库的主要任务是联机分析处理OLAP

(二)多维数据模型

1、多维数据模型的定义和作用

      定义:多维数据模型是为了满足用户从多角度多层次进行数据查询和分析的需要而建立起来的基于事实和维的数据库模型,其基本的应用是为了实现OLAP(Online Analytical Processing)。

     作用:通过多维数据模型的数据展示、查询和获取就是其作用的展现,但其真的作用的实现在于,通过数据仓库可以根据不同的数据需求建立起各类多维模型,并组成数据集市开放给不同的用户群体使用,也就是根据需求定制的各类数据商品摆放在数据集市中供不同的数据消费者进行采购。

2、事实表和维表

      事实表:事实表是用来记录具体事件的,包含了每个事件的具体要素,以及具体发生的事情;

       维表:维表则是对事实表中事件的要素的描述信息。


       这是一个最简单的星形模型的实例。事实表里面主要包含两方面的信息:维和度量,维的具体描述信息记录在维表,事实表中的维属性只是一个关联到维表的键,并不记录具体信息;度量一般都会记录事件的相应数值,比如这里的产品的销售数量、销售额等。维表中的信息一般是可以分层的,比如时间维的年月日、地域维的省市县等,这类分层的信息就是为了满足事实表中的度量可以在不同的粒度上完成聚合,比如2010年商品的销售额,来自上海市的销售额等。

  还有一点需要注意的是,维表的信息更新频率不高或者保持相对的稳定,例如一个已经建立的十年的时间维在短期是不需要更新的,地域维也是;但是事实表中的数据会不断地更新或增加,因为事件一直在不断地发生,用户在不断地购买商品、接受服务。

3、一种数据挖掘查询语言:DMQL

DMQL首先包括定义数据仓库和数据集市的语言原语,这包括两种原语定义:一种是立方体定义,一种是维定义

4、度量的分类

  一个数据立方体的度量是一个数值函数,该函数可以对数据立方体的每一个点求值。度量可以根据其所用的聚集函数分为三类:

   口   分布的

   口   代数的

   口   整体的

5、概念分层:location维的一个概念分层

6、多维数据模型上的OLAP操作

   口   上卷:汇总数据

   口   下钻

   口   切片和切块

   口   转轴

   口   其他OLAP操作:钻过、钻透

  


(三)数据仓库结构








0 0
原创粉丝点击