数据挖掘概念与技术第三版 范明 孟晓峰译 第四章 数据仓库与联机分析处理学习笔记

来源:互联网 发布:巨龙软件工程有限公司 编辑:程序博客网 时间:2024/05/17 13:40
1.数据仓库:一个数据集合,四个特点:面向主题的(指面向具体应用)、集成的(指是多个数据库数据集成在一起)、时变的(数据来自历史多个时间范围)、非易失的(分离存放数据,不需要事务处理,数据不容易丢失)。
2.联机事务处理(OLTP)与联机分析处理(OLAP)的最原始区别:
  OLTP面向顾客,主要用于对单条数据的增删改查操作;OLAP面向市场,主要是对集中的大量数据进行分析处理。

3.元数据:关于数据的数据,其实就是描述数据的一些特性,如提取数据时所加的时间标签、提取数据的源、集成数据所添加的缺失字段都是元数据。

4.数据仓库和数据集市区别:

  数据仓库收集整个组织的主题信息,企业范围,通常使用事实星座模式。

  数据集市是数据仓库的一个部门子集,部门范围,流行采用星形或雪花模式。

5.典型的OLAP操作:

    上卷(上钻):将一个维的概念向上分层,如将统计的city维度上升到country维度。(维归约进行上卷时,一个或多个维可从数据立方体中删除。)

    下钻:上钻的逆操作,将一个维的概念向下分层,如将统计的quarter层下降到month层。

    切片:在给定的立方体的一个维上进行选择。

    切块:在给定的立方体的两个维或多个维上进行选择。

    转轴:是一种目视操作,转动数据的视角,便于观察。

6.OLAP是数据的汇总或聚集工具,帮助简化数据分析;数据挖掘是能自动发现隐藏在大量数据中的隐含模式和有趣知识。

  OLAP工具的目标是简化和支持交互数据分析,数据挖掘工具的目标是尽可能自动处理。

7.数据仓库采用三层体系结构:

   底层是数据仓库服务器,他通常是关系数据库系统;

   中间层是OLAP服务器,典型的使用为ROLAP和MOLAP;

   顶层是前端客户层,它包括查询和报告工具。

8.使用索引技术,OLAP查询处理可以更有效地进行。

  位图索引:每个属性都有自己的位图索引表。位图索引把连接、聚集和比较操作归结成位算术运算(其实就是属性符号表示简化为1与0的位运算,方便计算);

  连接索引:登记来自两个或多个关系的可连接性,降低了OLAP连接操作的代价。(其实就是通过几个元组的中间共同属性值来连接两个属性。)

阅读全文
0 0