数据仓库与数据挖掘(二)

来源:互联网 发布:mac股票软件 编辑:程序博客网 时间:2024/05/01 20:45

1、数据仓库产生的原因

(1)操作型数据处理 

(2)分析型数据处理

2、传统的数据库系统不能应用于分析型数据处理,为什么呢?

(1)数据的分散

(2)“蜘蛛网”问题

(3)数据不一致问题

(4)数据动态集成问题

(5)历史数据问题 

(6)数据的综合问题

3、数据仓库的数据具有以下四种特征

(1)数据仓库的数据是面向主题的

(2)数据仓库的数据时集成的

(3)数据仓库的数据时不可更新的

(4)数据仓库的数据是随时间不断变化的

4、数据仓库的特征中的不可更新和随时间不断变化是否矛盾?

不矛盾

不可更新指数据可读不可改,随时间不断变化是指新数据进来,旧数据删除,是对数据的维护,所以不矛盾

5、数据仓库的体系结构 P14

数据仓库系统由数据源、集成工具、数据仓库与数据库服务器、OLAP服务器、元数据与元数据管理工具、数据集市和前台分析工具等组成

6、ODS主要是适应进行企业级的全局应用的需求而产生的,大致可以分成两类  P22

(1)一类是进行企业级的联机事务处理

(2)另一类可以称之为“即时OLAP”数据处理

7、数据仓库中数据粒度可以分为两种形式 P31

(1)第一种粒度是对数据仓库中数据的综合程度高低的一个度量

(2)另一种特殊形式的粒度是样本数据库

8、粒度越,细节程度越,综合程度越,回答查询的种类就越  P31

9、数据分割是数据仓库中另一个重要概念。它指将数据分布到各自的物理单元中,以便能分别独立处理,提高数据分析效率。数据分割后的数据单元称为分片。P32

10、捕捉变化数据的常用途径有几种?P32

(1)时标方法

(2)DELTA文件

(3)前后快照文件的方法

(4)日志文件

11、常见的多维数据模型有:星形、雪片和事实群模型(填空或者问答题,如果是问答题需展开回答) P49

星形模型:

12、常用的多维分析操作有切片、切块、旋转、下钻和上卷等 (填空或者问答题,如果是问答题需展开回答) P53

13、聚集函数可以分为三类 P52

(1)分布型聚集函数

(2)代数型聚集函数

(3)整体型聚集函数

 14、通常将基于多维数组存储的OLAP实现方式称为MOLAP,而将基于关系表存储的OLAP实现方式成为ROLAP P66

15、计算题:计算支持度和置信度 P123

16、什么是回归和分类?P150

在预测模型中,一个变量被表达成其他变量的函数。因此,可以把预测模型的过程看作是学习一种映射或者函数Y=f(X;0)。这里f是模型结构的函数形式,o是f中的未知参数,X通常被称之为输入变量,是一个P维向量,代表观察到的对象的P个属性值,Y通常被称之为相应变量,是一个标量,代表预测的结果。如果Y是数量型变量,那么学习从向量X到Y的映射的过程叫做回归,如果Y是范畴型变量,则叫分类。

17、聚类分析的定义 P180

聚类分析可以这样定义:将数据集分组,使其具有最大的组内相似性和最小的组间相似性。也就是说,聚类分析后的结果要达到不同组中的对象尽可能地不相似,而同一组中的对象尽可能的相似。

18、提高数据仓库性能的 方法 见课件

(1)合并表

(2)建立数据序列

(3)引入冗余

(4)进一步细分数据

(5)生成导出数据

(6)建立广义索引

(7)粒度划分

(8)分割

19、数据处理的两种基本类型

操作型(与业务活动关联)

分析型(与决策活动关联)

n操作型处理也叫事务处理,是指对数据库联机的日常操作,通常是对一个或一组记录的查询和修改,主要是为企业的特定应用服务的,人们关心的是响应时间,数据的安全性和完整性。
分析型处理则用于管理人员的决策分析。例如:DSS,EIS和多维分析等,经常要访问大量的历史数据。
两者之间的巨大差异使得操作型处理和分析型处理的分离成为必然。 
20、事务处理环境不适宜DSS应用的原因

  (1) 事务处理和分析处理的性能特性不同

  (2) 数据集成问题

  (3) 数据动态集成问题

  (4) 历史数据问题

  (5) 数据的综合问题

21、DSS对数据集成的迫切需要是数据仓库技术出现的最重要动因

22、研究发现,Naïve Bayes Classifier在性能上和Decision Tree、Neural  Network classifiers 相当。在应用于大数据集时,具有较高的准确率和速度

Naïve Bayes Classifier假设属性值之间是独立的,因此可以简化很多计算,故称之为Naïve。当属性值之间有依赖关系时,采用BayesianBelief Networks进行分类。

=DSS对数据集成的迫切需要是数据仓库技术出现的最重要动因
0 0