ETL读书报告---数据仓库设计的关键部分-Extraction+Transform+Load 之Extraction(数据抽取)
来源:互联网 发布:尘埃 mac 编辑:程序博客网 时间:2024/05/22 12:23
最近在学数据仓库的知识,看了一些关于ETL的英文书,写一些读书报告供大家批评+指正+分享。先写些关于数据抽取的报告吧。
数据仓库简单的说是基于主题(subject),集成(integration),历史(history)的数据的有效组织。构建一个数据仓库,集成数据是非常关键的部分。因为构建数据仓库所需要的数据源(Data Resource)可能来自不同的平台,不同的系统,而且并不是所有的数据都是我们需要的(基于商业需求,数据仓库是需求驱动的)。Extraction System(抽取系统)要做的工作就是从各种数据源中按照数据建模专家构建的数据模型(商业需求--维度模型 Dimensions Model)抽取需要的数据。这是十分重要的步骤。
当你在部署数据抽取系统的时候,建议按照如下步骤进行:
part one:The Logical Data Map(逻辑映射数据文档)
在实施数据抽取之前,先构造逻辑映射数据文档。造逻辑映射数据文档主要是部署整个抽取过程的需要做的事情,包括从哪里抽取,怎么抽取,抽取什么字段等信息,它可以说是抽取部分的元数据(Meta Data)
。
逻辑映射数据文档的组成部分:
- Target table name 目标表名
- Target column name目标字段名
- Table type 表类型
- SCD (slowly changing dimension) type 渐变维度类型
- Source database 源数据库
- Source table name源表
- Source column name源表字段
- Transformation 转换
目标就是数据建模时构造的模型表包括维度表(dimensions table)和事实表(fact table),也就是后面的表类型。渐变维度是在维度建模中可能缓慢变化的维度字段。另外转换是描述如何抽取的过程,一般表述成SQL语句。逻辑映射数据文档其实是抽取系统的蓝图。
如何构造这样的逻辑映射数据文档呢?主要分两个部分:
- 数据发现(data discovery phase)
- 数据异常探测(anomaly detecting phase)
其中主要要做的事情:
- 收集和归档源系统。(可以根据用户组来收集有用的数据源) 。追踪源系统。找出它的管理员和责任者。写成追踪报告。
- 确定最原始的数据集合
- 分析源系统,获得更好的了解源系统的内容。通常可以通过系统的ER图。如果ER图不存在,试图建立ER图(逆向工程)。注意源系统表等的数据说明在看ER图之前。并询问专业人才源系统内在不为人知的逻辑和增量变化。
- 内容分析。检查异常数据的存在
- 检查是否存在NULL值存在。
1.如果NULL作为外键时,要使用外连接。
2. 如果不是,按照商业规则决定是否处理NULL值。
3. 建议加载到数据仓库时,设置默认值代替NULL值 - 时间date的特殊性。date被存储成文本类型,找出来。
- 整合不同的数据源
Part two: The Challenge of Extracting from Disparate Platforms(待续)
- ETL读书报告---数据仓库设计的关键部分-Extraction+Transform+Load 之Extraction(数据抽取)
- 关键词抽取(keywords extraction)的相关研究
- 关键词抽取(keywords extraction)的相关研究
- Neural Relation Extraction(神经关系抽取)的两篇文章
- 关键词抽取(keywords extraction)的相关研究
- Extraction-Transformation-Loading(ETL)
- 数据装载工具(ETL)设计(Extract Transform Load)
- 数据仓库应用(二):数据抽取、转换、加载(ETL)
- AVATAR--文本的信息抽取系统(System Text for Information Extraction)
- 等值面抽取技术(Iso-surfaces Extraction Technique)
- Extraction(ET)
- A Brief Survey of Web Data Extraction Tools Web数据抽取工具综述
- A Brief Survey of Web Data Extraction Tools Web数据抽取工具综述 (续)
- ETL(Extract、Transform、Load )实现过程
- Extraction(ET)的软件观
- 数据仓库的ETL抽取-转换-装载
- 数据仓库的ETL抽取-转换-装载
- mllib-Feature Extraction and Transformation(特征抽取和变形)
- nio client
- 网页打印代码
- IP QoS 技术介绍
- hql 语句总结
- ASP.NET将EXCEL导入SQL SERVER数据库的代码
- ETL读书报告---数据仓库设计的关键部分-Extraction+Transform+Load 之Extraction(数据抽取)
- 一位软件工程师的6年总结
- Visual Studio利用宏生成Get和Set属性的代码
- Flash AS3学习之路—时间事件及帧循环
- 网络公司的创业10大谎言蓝图
- 线程中开启AO
- 在 console mode 中使用 C/C++ 编译器
- 失去了什么,得到了什么。
- 电子商务网站的建设和运用