数据仓库与数据挖掘(三)
来源:互联网 发布:WiFi无法连接网络? 编辑:程序博客网 时间:2024/05/04 17:37
转自:DBMS 复习参考
一·数据处理的两种基本类型:操作型,分析型。
二·操作型数据和分析型数据的区别
操作型数据
分析型数据
细节的
综合的,或提炼的
在存取瞬间是准确的(当前数据)
代表过去的数据(历史数据)
可更新
不可更新
操作需求事先可知道
操作需求事先不知道
生命周期符合SDLC(系统生命周期)
完全不同的生命周期
对性能要求高
对性能要求宽松
一个时刻操作一单元
一个时刻操作一集合
事务驱动
分析驱动
面向应用(业务处理)
面向分析
一次操作数据量小,计算简单
一次操作数据量大,计算复杂
支持日常操作
支持管理需求
注:不要求能够完全按照表格方式进行对比记忆,尽可能多的记住其特性,如果可以直接将表格完全记忆最好。
三·数据库系统的局限性
数据的分散,“蜘蛛网”问题,数据不一致问题,数据动态集成问题,历史数据问题,数据的综合问题。
四·数据仓库的四个基本特征
面向主题,集成,不可更新,随时间不断变化。
已有数据纪录不可更新;整体数据仓库内数据跟随时间变化不断增加新的数据,并且去除某一时间点之前的数据。只有读取,删除,插入操作,没有修改操作。
五·数据仓库体系结构
数据源,集成工具,数据仓库与数据仓库服务器,OLAP服务器,元数据与元数据管理工具,数据集市和前台分析工具等组成。
六·ODS
ODS主要是适应进行企业级的全局应用的需求而产生的。这种全局应用还可以大致地划分为两类:一类是进行企业级的联机事务处理,另一类可以称之为“即时OLAP”数据处理。
七·数据粒度
两种形式:第一种粒度是对数据仓库中数据的综合程度高低的一个度量;另一种特殊形式的粒度是样本数据库。
粒度越小,细节程度越高,综合程度越低,回答查询的种类就越多。
八·数据分割(分片/数据分片)
将数据分布到各自的物理单元中,以便能分别独立处理,提高数据分析效率。
九·数据仓库中数据的追加
时标方法;DELTA文件;前后快照文件的方法;日志文件。
十·维的构成:维成员,维层,维层次,维属性。
十一·度量:要分析的目标或对象,有可累计型和不可累计型。
十二·常见的多维数据模型:星形,雪片,事实群模型。
星形模型:由一个很大的中心表和一组较小的表组成。不支持维的层结构,实现时将所有的维层属性存放在这一个表中,没有进行规范化。每个层有自己的属性,有很多冗余。当不同的维层有相同属性时只能使用换名方法,影响查询。
雪片模型:对维表进行规范化后形成,用多张维表描述一个复杂维,支持对不同层上的相同属性查询,易于维护而且节省存储空间。执行查询时需要进行较多的链接操作,可能影响系统的性能。
事实群模型(星系模型):在复杂的应用中需要多个事实表共享维表,类似于星形模型集合。
十三·聚集函数分类:分布型聚集函数,代数型聚集函数,整体型聚集函数。
分布型聚集函数:将数据分成n份,对其中每一份应用该函数,可以得到n个聚集值,对这n个聚集值进行计算得到的结果和整个数据(不划分)应用该函数得出结果一致。具有可累计的特性。
代数型聚集函数:一个函数可以由若干个分布型函数进行代数运算得出。
整体型聚集函数:一个函数不能由其他函数进行代数运算得出。
十四·常用多维分析操作:切片,切块,旋转,下钻,上卷。
切片:在数据方体的某一维上选定一个维成员的动作。
切块:在数据方体的某一维上选定某一区间的维成员的动作。
旋转:改变数据方体维的次序的动作。
下钻:在某个分析的过程中,用户需要从更多的维或者某个维的更细层次上观察数据。操作类型有两种,第一种为在现有的维上钻取到更细一层的数据;另一种是增加更多的维。
上卷:在某个分析的过程中,用户需要从更少的维或者某个维的更粗层次上观察数据。操作类型有两种,第一种为上卷到现有的某个维的更高层次去进行分析;另一种是减少一个维来进行分析。
十五·数据方体的存储
通常将基于多维数组存储的OLAP实现方式维MOLAP;基于关系表存储的OLAP实现方式称为ROLAP。
十六·提高数据仓库效率的方法
1 合并表,2 建立数据序列,3 引入冗余,4 进一步细分数据,5 生成导出数据,6 建立广义索引,7 粒度划分,8 分割。
十七·支持度与置信度
支持度:指项集X和Y在数据库D中同时出现的概率。(符合集数量/总样本数量)
置信度:指在项集X出现的情况下,项集Y在数据库D中同时出现的条件概率,即Pr(Y/X)=Pr(XUY)/Pr(X)。(符合集数量/X样本数量)
注:这里可能会有计算题,需要注意其中各个量的识别,不要把支持度与置信度搞混。
- 数据仓库与数据挖掘(三)
- 数据仓库与数据挖掘
- 数据仓库与数据挖掘
- 数据仓库与数据挖掘
- 数据仓库与数据挖掘
- 数据仓库与数据挖掘
- 数据仓库与数据挖掘
- 数据仓库与数据挖掘
- 数据仓库与数据挖掘(一)
- 数据仓库与数据挖掘(二)
- 浅谈数据挖掘与数据仓库
- 漫谈大数据仓库与挖掘系统(三):ETL的开始——数据的传输和同步
- 数据仓库与数据挖掘的一些基本概念
- 数据挖掘与数据仓库的关系
- 《数据仓库与数据挖掘技术》笔记
- 数据仓库与数据挖掘相关基础概念
- 数据仓库与数据挖掘的个人总结
- 【可视化】数据仓库与数据挖掘大作业
- 51中的矩阵键盘
- 序言
- 使用Excel快速生成markdown的表格
- 第十三天
- List,Set,Map用法以及区别
- 数据仓库与数据挖掘(三)
- 算法基本概念篇
- Web架构设计——常见基础功能
- 算法练习12
- JS实现文本框的值输入不合规范的时候,点击按钮不能提交
- Scrapy定向爬虫教程(三)——爬取多个页面
- 不要让递归函数fuck大家的cpu
- 【poj 1064】Cable master
- bootstrap3学习1:响应式布局layout