数据仓库与数据挖掘（三）

来源：互联网发布：WiFi无法连接网络? 编辑：程序博客网时间：2024/05/04 17:37

转自：DBMS 复习参考

一·数据处理的两种基本类型：操作型，分析型。

二·操作型数据和分析型数据的区别

操作型数据

分析型数据

细节的

综合的，或提炼的

在存取瞬间是准确的（当前数据）

代表过去的数据（历史数据）

可更新

不可更新

操作需求事先可知道

操作需求事先不知道

生命周期符合SDLC（系统生命周期）

完全不同的生命周期

对性能要求高

对性能要求宽松

一个时刻操作一单元

一个时刻操作一集合

事务驱动

分析驱动

面向应用（业务处理）

面向分析

一次操作数据量小，计算简单

一次操作数据量大，计算复杂

支持日常操作

支持管理需求

注：不要求能够完全按照表格方式进行对比记忆，尽可能多的记住其特性，如果可以直接将表格完全记忆最好。

三·数据库系统的局限性

数据的分散，“蜘蛛网”问题，数据不一致问题，数据动态集成问题，历史数据问题，数据的综合问题。

四·数据仓库的四个基本特征

面向主题，集成，不可更新，随时间不断变化。

已有数据纪录不可更新；整体数据仓库内数据跟随时间变化不断增加新的数据，并且去除某一时间点之前的数据。只有读取，删除，插入操作，没有修改操作。

五·数据仓库体系结构

数据源，集成工具，数据仓库与数据仓库服务器，OLAP服务器，元数据与元数据管理工具，数据集市和前台分析工具等组成。

六·ODS

ODS主要是适应进行企业级的全局应用的需求而产生的。这种全局应用还可以大致地划分为两类：一类是进行企业级的联机事务处理，另一类可以称之为“即时OLAP”数据处理。

七·数据粒度

两种形式：第一种粒度是对数据仓库中数据的综合程度高低的一个度量；另一种特殊形式的粒度是样本数据库。

粒度越小，细节程度越高，综合程度越低，回答查询的种类就越多。

八·数据分割（分片／数据分片）

将数据分布到各自的物理单元中，以便能分别独立处理，提高数据分析效率。

九·数据仓库中数据的追加

时标方法；DELTA文件；前后快照文件的方法；日志文件。

十·维的构成：维成员，维层，维层次，维属性。

十一·度量：要分析的目标或对象，有可累计型和不可累计型。

十二·常见的多维数据模型：星形，雪片，事实群模型。

星形模型：由一个很大的中心表和一组较小的表组成。不支持维的层结构，实现时将所有的维层属性存放在这一个表中，没有进行规范化。每个层有自己的属性，有很多冗余。当不同的维层有相同属性时只能使用换名方法，影响查询。

雪片模型：对维表进行规范化后形成，用多张维表描述一个复杂维，支持对不同层上的相同属性查询，易于维护而且节省存储空间。执行查询时需要进行较多的链接操作，可能影响系统的性能。

事实群模型（星系模型）：在复杂的应用中需要多个事实表共享维表，类似于星形模型集合。

十三·聚集函数分类：分布型聚集函数，代数型聚集函数，整体型聚集函数。

分布型聚集函数：将数据分成n份，对其中每一份应用该函数，可以得到n个聚集值，对这n个聚集值进行计算得到的结果和整个数据（不划分）应用该函数得出结果一致。具有可累计的特性。

代数型聚集函数：一个函数可以由若干个分布型函数进行代数运算得出。

整体型聚集函数：一个函数不能由其他函数进行代数运算得出。

十四·常用多维分析操作：切片，切块，旋转，下钻，上卷。

切片：在数据方体的某一维上选定一个维成员的动作。

切块：在数据方体的某一维上选定某一区间的维成员的动作。

旋转：改变数据方体维的次序的动作。

下钻：在某个分析的过程中，用户需要从更多的维或者某个维的更细层次上观察数据。操作类型有两种，第一种为在现有的维上钻取到更细一层的数据；另一种是增加更多的维。

上卷：在某个分析的过程中，用户需要从更少的维或者某个维的更粗层次上观察数据。操作类型有两种，第一种为上卷到现有的某个维的更高层次去进行分析；另一种是减少一个维来进行分析。

十五·数据方体的存储

通常将基于多维数组存储的OLAP实现方式维MOLAP；基于关系表存储的OLAP实现方式称为ROLAP。

十六·提高数据仓库效率的方法

1 合并表，2 建立数据序列，3 引入冗余，4 进一步细分数据，5 生成导出数据，6 建立广义索引，7 粒度划分，8 分割。

十七·支持度与置信度

支持度：指项集X和Y在数据库D中同时出现的概率。(符合集数量／总样本数量)

置信度：指在项集X出现的情况下，项集Y在数据库D中同时出现的条件概率，即Pr(Y/X)=Pr(XUY)/Pr(X)。(符合集数量／X样本数量)

注：这里可能会有计算题，需要注意其中各个量的识别，不要把支持度与置信度搞混。

十八、决策树算法归纳

基本算法 (贪婪算法)

由上到下，分而治之，递归构造树

开始时，所有的训练样本都在树根

属性都是可分类的属性(如果是连续值的话，首先要对其进行离散化)

根据选择的属性，对样本递归地进行划分

在启发式或统计度量（如informationgain)的基础上选择测试属性

停止划分的条件

某个节点上的所有样本都属于相同的类

所有的属性都用到了–这时采用多数有效的方法对叶子节点进行分类

没有样本了

0 0