ETL之一
来源:互联网 发布:冯大辉 知乎匿名 编辑:程序博客网 时间:2024/04/27 17:57
对于数据仓库以及ETL的知识,我基本上是个门外汉。一切都得从头开始,记个笔记,方便自已了解学习进度。
首先,我们来了解最基本的定义:
嗯,也有人将ETL简单称为数据抽取。至少在未学习之前,领导告诉我的是,你需要做一个数据抽取的工具。
其实呢,抽取是ETL中的关键环节,顾名思义,也就将数据从不同的数据源中抓取(复制)出来。
太简单了!
上面的解释无首无尾,有点象能让你吃饱的第七个烧饼,
仔细一想,抽取是不可能单独存在,我们需要将与之关联的一些其它环节拿出来。
于是,得到ETL的定义:
将数据抽取(Extract)、转换(Transform)、清洗(Cleansing)、装载(Load)的过程。
好的,既然到了这一个层次,我们完全会进一步展开联想,引出上面这个抽象事件的前因后果,
抽取的源在哪里?
装载的目的又是什么呢?
抽取源:大多数情况下,可以认为是关系数据库,专业一点,就是事务处理系统(OLTP)。当然,广义一点,可能会是其它数据库或者是文件系统。
目的地:OK,我们希望是数据仓库。数据仓库是啥?在学习之前,它对我来说是个抽象的怪物,看过一些简单的资料之后,才了解这个怪物一点都不怪。堆积用来分析的数据的仓库。是了,是用来分析的,于是,它区别于OLTP中的数据存储。
然后,我们来看看为什么要ETL?
在我看来,有两个原因。
一:性能 将需要分析的数据从OLTP中抽离出来,使分析和事务处理不冲突。咦?这不是数据仓库的效果吗?是了,
数据仓库,大多数情况下,也就是通过ETL工具来生成地。
二:控制 用户可以完全控制从OLTP中抽离出来的数据,拥有了数据,也就拥有了一切。
嗯,OLAP分析,数据挖掘等等等……。
最后,总结一下,
从资料上看,ETL是一门大学问,对于大学问,实在有些怕怕,所以,我觉得应该停下来想一想,下一步我该干点啥?
嗯,时不我待,我没有办法一切从头开始,
是了,从应用出发,看看现在工作中,最急需的是什么?
鸭子要变成一盘菜,并不是举手将之置于油锅之劳。
OK,要将生米变为熟饭,鸭子放上大盘,一堆废话之后,我得先看看厨房里都有了一些啥?
- ETL之一
- ETL 学习之一
- ETL学习笔记之一:ETL是什么?
- ETL学习笔记之一:ETL是什么?
- ETL学习笔记之一:ETL是什么? 收藏
- ETL学习笔记之一:ETL是什么?
- 数据库:ETL学习笔记之一:ETL是什么?
- ETL学习笔记之一:ETL是什么?
- ETL工具—kettle使用之一
- ETL
- ETL
- ETL
- ETL
- ETL
- ETL
- ETL
- ETL
- ETL
- hdu 2020 绝对值有序
- 教你七招提高.NET网站性能
- 分布式设计与开发(一)------宏观概述
- pku1088滑雪 记忆搜索
- 十件你生命中无能为力的事
- ETL之一
- QTP中,通过WScript.Shell对象,实现自动弹出并自动关闭的Msgbox
- 关于FormsAuthentication.RedirectFromLoginPage()
- ASP.NET里的Session详细解释
- hdu 2021 发工资咯
- ETL之二
- 云岚 续
- 创建为ClickOnce清单签名的.pfx格式数字证书
- Silverlight4.0 调试错误