数据仓库与数据挖掘(三)

来源:互联网 发布:WiFi无法连接网络? 编辑:程序博客网 时间:2024/05/04 17:37

转自:DBMS 复习参考

一·数据处理的两种基本类型操作型,分析型。

二·操作型数据和分析型数据的区别

操作型数据

分析型数据

细节的

综合的,或提炼的

在存取瞬间是准确的(当前数据)

代表过去的数据(历史数据)

可更新

不可更新

操作需求事先可知道

操作需求事先不知道

生命周期符合SDLC(系统生命周期)

完全不同的生命周期

对性能要求高

对性能要求宽松

一个时刻操作一单元

一个时刻操作一集合

事务驱动

分析驱动

面向应用(业务处理)

面向分析

一次操作数据量小,计算简单

一次操作数据量大,计算复杂

支持日常操作

支持管理需求

 注:不要求能够完全按照表格方式进行对比记忆,尽可能多的记住其特性,如果可以直接将表格完全记忆最好。

三·数据库系统的局限性

数据的分散,“蜘蛛网”问题,数据不一致问题,数据动态集成问题,历史数据问题,数据的综合问题。

四·数据仓库的四个基本特征

       面向主题,集成,不可更新,随时间不断变化。

       已有数据纪录不可更新;整体数据仓库内数据跟随时间变化不断增加新的数据,并且去除某一时间点之前的数据。只有读取,删除,插入操作,没有修改操作。

五·数据仓库体系结构

       数据源,集成工具,数据仓库与数据仓库服务器,OLAP服务器,元数据与元数据管理工具,数据集市和前台分析工具等组成。

六·ODS

       ODS主要是适应进行企业级的全局应用的需求而产生的。这种全局应用还可以大致地划分为两类:一类是进行企业级的联机事务处理,另一类可以称之为“即时OLAP”数据处理。

七·数据粒度

两种形式:第一种粒度是对数据仓库中数据的综合程度高低的一个度量;另一种特殊形式的粒度是样本数据库。

粒度越小,细节程度越高,综合程度越低,回答查询的种类就越多。

八·数据分割(分片/数据分片)

       将数据分布到各自的物理单元中,以便能分别独立处理,提高数据分析效率。

·数据仓库中数据的追加

       时标方法;DELTA文件;前后快照文件的方法;日志文件。

十·维的构成维成员,维层,维层次,维属性。

十一·度量:要分析的目标或对象,有可累计型和不可累计型。

十二·常见的多维数据模型:星形,雪片,事实群模型。

       星形模型:由一个很大的中心表和一组较小的表组成。不支持维的层结构,实现时将所有的维层属性存放在这一个表中,没有进行规范化。每个层有自己的属性,有很多冗余。当不同的维层有相同属性时只能使用换名方法,影响查询。

       雪片模型:对维表进行规范化后形成,用多张维表描述一个复杂维,支持对不同层上的相同属性查询,易于维护而且节省存储空间。执行查询时需要进行较多的链接操作,可能影响系统的性能。

       事实群模型(星系模型):在复杂的应用中需要多个事实表共享维表,类似于星形模型集合。

十三·聚集函数分类:分布型聚集函数,代数型聚集函数,整体型聚集函数。

       分布型聚集函数:将数据分成n份,对其中每一份应用该函数,可以得到n个聚集值,对这n个聚集值进行计算得到的结果和整个数据(不划分)应用该函数得出结果一致。具有可累计的特性。

代数型聚集函数:一个函数可以由若干个分布型函数进行代数运算得出。

整体型聚集函数:一个函数不能由其他函数进行代数运算得出。

十四·常用多维分析操作:切片,切块,旋转,下钻,上卷。

       切片:在数据方体的某一维上选定一个维成员的动作。

切块:在数据方体的某一维上选定某一区间的维成员的动作。

旋转:改变数据方体维的次序的动作。

下钻:在某个分析的过程中,用户需要从更多的维或者某个维的更细层次上观察数据。操作类型有两种,第一种为在现有的维上钻取到更细一层的数据;另一种是增加更多的维。

上卷:在某个分析的过程中,用户需要从更少的维或者某个维的更粗层次上观察数据。操作类型有两种,第一种为上卷到现有的某个维的更高层次去进行分析;另一种是减少一个维来进行分析。

十五·数据方体的存储

       通常将基于多维数组存储的OLAP实现方式维MOLAP;基于关系表存储的OLAP实现方式称为ROLAP

十六·提高数据仓库效率的方法

       1 合并表,2 建立数据序列,3 引入冗余,4 进一步细分数据,5 生成导出数据,6 建立广义索引,7 粒度划分,8 分割。

十七·支持度与置信度

  支持度:指项集XY在数据库D中同时出现的概率。(符合集数量/总样本数量)

       置信度:指在项集X出现的情况下,项集Y在数据库D中同时出现的条件概率,即Pr(Y/X)=Pr(XUY)/Pr(X)(符合集数量/X样本数量)

注:这里可能会有计算题,需要注意其中各个量的识别,不要把支持度与置信度搞混。

十八、决策树算法归纳
基本算法 (贪婪算法)
由上到下,分而治之,递归构造树
开始时,所有的训练样本都在树根
属性都是可分类的属性(如果是连续值的话,首先要对其进行离散化)
根据选择的属性,对样本递归地进行划分
在启发式或统计度量(如informationgain)的基础上选择测试属性
停止划分的条件
某个节点上的所有样本都属于相同的类
所有的属性都用到了–这时采用多数有效的方法对叶子节点进行分类
没有样本了


0 0
原创粉丝点击