数据仓库数据挖掘——数据仓库中的ETL和元数据

来源:互联网 发布:中国象棋电脑软件 编辑:程序博客网 时间:2024/04/30 18:24

不懂的地方:

与存放DW的数据库系统相同的数据源——这是什么0.0



ETL

概念:ETL是数据从业务系统抽取转化到数据仓库的过程,包括4个子过程:数据抽取、数据转换、数据清洗、数据装载

开发一个数据仓库包括3个步骤——需求/建模、ETL开发、前端开发

1、数据抽取:数据源接口从业务系统中抽取数据,为数据仓库输入数据

抽取接口:数据库接口、文件接口

抽取策略:抽取方式、抽取时机、抽取周期

抽取方式:增量抽取、完全抽取

文件类型数据源;

人工实现:利用数据库工具将这些数据导入到制定的数据库,然后从制定的数据库中抽取

工具实现

捕获数据的方法:

完全刷新:对移入DW的数据进行完全复制,经常变化

增量更新:捕获数据园中修改的数据,流水型增长、数据量大

对两者结合的数据先考虑增量更新,在考虑完全刷新

2、数据转换和数据清洗:

对业务系统中抽取的数据,根据数据仓库系统模型的要求,进行数据的转换、清洗、拆分、汇总等处理,保证来自不同系统、不同格式的数据具有一致性和完整性,并按要求装入数据仓库。

数据清洗:过滤不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是有业务单位修正之后再进行抽取

不完整的数据、错误的数据、重复数据、不一致数据转换、数据粒度的转换、商务规则的计算

3、数据装载:

将从数据源系统中抽取、转换、清洗后的数据装载到数据仓库系统中

作用:

1、解决数据分散问题

2、解决数据不清洁问题

3、方便企业各部门构筑数据集市


工具:

各大数据库厂商都宣布自身产品支持数据仓库,并提出了用于建立和使用数据仓库的产品,如Oracle, IBM, Microsoft

实现办法:

1、ETL工具:优——快速建立ETL过程,屏蔽复杂编码,降低难度

  缺——缺少灵活性

2、SQL方法实现:优——灵活,提高ETL运行效率

   缺——编码复杂,对技术要求比较高

3、ETL+SQL:综合前两种优点,提高ETL开发速度和效率


面试问题:

使用ETL工具的优点是什么?与直接写代码开发区别在哪里?

(1)、ETL工具开发更规范,条理性更好,便于维护。可能某些ETL工具效率比直接开发的存储过程的效率要差一些

(2)、使用ETL工具后,产生的文档更清晰,比直接开发的文档易懂,即便是有开发者离职也不会出现断层

(3)、这种工具更容易适应业务变更

如果熟悉直接写代码,那么项目效率更高


数据仓库是个系统集成项目:

操作环境层、数据仓库层、业务层


元数据:

定义:元数据是数据的数据。指在数据仓库建设过程中所产生的有关数据源定义、目标定义、转换规则等相关的关键数据,同时元数据还包含关于数据含义的商业信息

有了元数据,用户才可以最有效的利用数据仓库

分类:

管理元数据:是存储关于数据仓库系统技术细节的数据,用于开发和管理数据仓库

(1)、数据仓库结构的描述

(2)、汇总用的算法

(3)、由操作环境到数据仓库环境的映射

用户元数据:从最终用户角度描述数据仓库

(1)、如何连接数据仓库

2)、用以访问数据仓库的哪些数据

(3)、数据来自哪一个源系统

作用:1、信息描述和分类可以实现格式化、从而为机器处理创造了可能

    2、ETL是数据仓库从业务系统获得数据的必经之路,元数据则是地图

1、数据集成所必须

2、帮助用户理解数据

3、保证数据质量

来源:

源系统、数据抽取阶段、数据清洗和转换阶段、数据装载阶段、数据存储阶段、信息传递阶段

数据字典与元数据:

数据库的数据字典——VS——数据仓库的元数据

数据仓库的元数据除对数据仓库中数据的描述(数据仓库字典)外,还有以下三类元数据:

(1)、关于数据源的元数据

(2)、关于抽取和转换的元数据

(3)、关于最终用户的元数据

用途:

1、起到辅助决策分析过程中定位数据仓库的目录作用

2、数据从业务环境想数据仓库环境传送时数据仓库的目录作用

3、指导从近期基本数据到轻度综合数据和到高度综合数据的综合算法选择


数据共享领域的某些趋势说明数据仓库中的元数据需求正逐步增加,这些趋势包括:

1、数据模型处理的对象由传统的字符型和数值型扩展到多种媒体类型

2、支持一家企业的数据仓库扩展到支持多个组织多个企业共享的数据仓库

3、信息流控制由过去的从源系统到数据仓库的单向流动扩展到由数据仓库向源系统的反馈

4、各个厂家的专用数据格式向公共开放标准元数据交换格式转换,以提高其信息捕获能力


元数据管理功能:
提供按照合适版本获取和存储元数据的方法
支持元数据以用户能理解的统一方式集成和展现
支持元数据标准化:不同工具自由交换元数据
保持系统中元数据同步


元数据管理实现方法:
集中式的元数据知识库
分布式元数据知识库+标准的元数据交换格式


外部数据:

定义:来自于企业外,描述企业外部环境的数据称为外部数据

企业不仅需要了解企业内部的情况,还需要参考企业外部的信息


外部数据与非结构化数据:

外部数据有多种来源:包括咨询报告、报纸期刊。有些是结构化数据,有些是无法用数字或统一的结构来表示的非结构话数据。

最常见的非结构化数据:图像和声音

元数据和外部数据:

对元数据进行整理,生成通知数据(与用户相关的数据分类)

当新的外部数据进入数据仓库时,系统可以查找通知文件盒元数据得到与该项新外部数据相关的人员,通知他们已经获得了有关的新的外部数据。

外部数据的存储和管理:

1、外部数据往往数量巨大

2、外部数据可以存储在数据仓库之外,如磁带、微缩胶片等,但在库内的元数据中做一个注册

3、对外部数据进行分类,重要数据联机存储,次要数据脱机存储



1 0