什么是ETL

来源:互联网 发布:重庆网络机柜cqwsjg 编辑:程序博客网 时间:2024/05/22 17:42

ETL分别是Extract(数据抽取)、 Transform(转换)、 Loading(装载)三个英文单词的首字母缩写。是数据抽取(Extract)、转换(Transform)、清洗(Cleansing)、装载(Load)的过程。构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。

 

抽取:将数据从各种原始的业务系统中读取出来,这是所有工作的前提。

转换:按照预先设计好的规则将抽取得数据进行转换、清洗,以及处理一些冗余、歧义的数据,使本来异构的数据格式能统一起来。

装载:将转换完的数据按计划增量或全部的导入到数据仓库中。

 

在技术上主要涉及增量、转换、调度和监控等几个方面的处理。

 

ETL作为BI/DW的核心和灵魂,按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。如果说数据仓库的模型设计是一座大厦的设计蓝图,数据是砖瓦的话,那么ETL就是建设大厦的过程。在整个项目中最难部分是用户需求分析和模型设计,而ETL规则设计和实施则是工作量最大的,其工作量要占整个项目的60%-80%,这是国内外从众多实践中得到的普遍共识。

整个商务智能/数据仓库系统由三大部分组成:数据集成、数据仓库和数据集市、多维数据分析。

 

通常,商务智能运作所依靠的信息系统是一个由传统系统、不兼容数据源、数据库与应用所共同构成的复杂数据集合,各个部分之间不能彼此交流。从这个层面看:目前运行的应用系统是您花费了很大精力和财力构建的、不可替代的系统,特别是系统的数据。而新建的商务智能系统目的就是要通过数据分析来辅助自己决策,恰恰这些数据的来源、格式不一样,导致了系统实施、数据整合的难度。此时,您非常希望有一个全面的解决方案来解决自己的困境,解决自己企业的数据一致性与集成化问题,使您能够从您所有传统环境与平台中采集数据,并利用一个单一解决方案对其进行高效的转换。这个解决方案就是ETL。

原创粉丝点击