多维数据模型

来源:互联网 发布:淘宝抢鞋软件 编辑:程序博客网 时间:2024/05/12 08:06

在做BIEE的数据挖掘之前必须了解一下的这些概念,前车之鉴,望各位志同道合之兄共勉之!(所有的本人遇到的感觉重要的名词解释都使用使用红色标记了。)

1.基本概念

      数据仓库和数据仓库技术是基于多维数据模型的。这个模型把数据看做是数据立方体形式。多维数据模型围绕中心主题组织。该主题用事实表表示,事实是数值度量的。

        数据立方体允许以多维数据建模和观察。它由事实来定义。维是关于一个组织想要记录的视角或观点。每个维都有一个表与之相关联,称为维表。维表是对维的属性的描述。事实是一个数据度量,对所要考察的数据的一个数值度量,事实表包括事实的名称或度量以及每个相关维表的关键字。

      一个n维的数据的立方体叫做基本方体。给定一个维的集合,我们可以构造一个方体的格。每个格都在不同的汇总级或不同的数据子集显示数据,方体的格称为数据立方体0维方体存放最高层汇总,称作顶点方体,而存放最底层汇总的方体则称为基本方体。

 

2.多维数据模型的存在形式:

        A.     星型模式(Star schema):事实表在中心,周围围绕地连接着维表(每维一个),事实表含有大量数据,没有冗余。

        B.     雪花模式(Snowflake schema):是星型模式的变种,其中某些维表是规范化的(将引起冗余的字段用一个新表来表示),因而把数据进一步的分解到附加表中,结果模式图形成类似于雪花的形状。

        C.     事实星座 fact constellations:多个事实表共享维表,这种模式可以看做星型模式集,因此称为星系模式(galaxy schema),或者事实星座。

3.多维数据模型上的OLAP操作

        A.上卷(roll-up):汇总数据

   通过一个维的概念分层向上攀升或者通过维规约来实现

        B.下钻(drill-down):上卷的逆操作

   由不太详细的数据得到更加详细的数据,可以通过沿维的概念分层向下或引入新的维来实现。

        C.     切片和切块(slice and dice)投影和选择操作(projection and selection)

        D.     转轴(pivot): 立方体的重定位,可视化,或将一个三维立方体转化为一个二维平面序列。变换坐标轴。

        E.     钻过(drill_across):执行涉及多个事实表的查询

        F.     钻透(drill_through):使用关系SQL机制,钻到数据立方体的底层,到后端关系表。

原创粉丝点击