ETL是什么?

来源:互联网 发布:搜房网软件 编辑:程序博客网 时间:2024/06/05 13:30

ETL是什么,在经过强大的搜索后,将自己的理解整理如下:

ETL 
extraction-transformation-loading,extract\transform\load
是生命线,贯穿于项目的始终,并直接影响到最终的结果展现,是根基
ETL搭建了OLTP和OLAP系统之间的桥梁,瓶颈来自与服务器的性能:ETL主要利用转换服务器的处理能力,从源表抽取数据后,在转换服务器中进行数据清洗、转换、完成后加载到目标库中,转换过程都是在转换服务器中进行的。
数据抽取、数据的清洗转换、数据的加载
T过程时间最长,2/3(Transform,清洗、转换)
ETL三种方法:1、工具(Oracle:OWB、SQLServer:DTS、SQLServer2005:SSIS、Informatic.......) 2、SQL方法实现  3、ETL工具+SQL结合
DW (DataWarehousing 数据仓库)


清洗是确认是否过滤掉,还是由业务单位修正之后再进行抽取。
不符合的数据:不完整的数据、错误的数据、重复的数据(通常)分为这三大类
1.)不完整的数据:信息缺失、业务系统中主表与明细表不能匹配。
2.)错误的数据:全角数字字符、字符串数据日期格式不正确、日期越界
3.)重复的数据:


数据转换:不一致的数据转换、数据粒度的转换、一些商务规则的计算
ETL日志:1.)执行过程日志 2.)错误日志 3.)总体日志


1.数据收集
a.收集位置多样:不同服务器,不同位置
b.收集数据形式多样:不同存储文件,不同存储格式
2.分析转换统一数据形式
a.分析解析不同文件和不同数据格式
b.将不同格式数据转换为统一格式
c.合并收集的数据
3.将统一格式数据导入数据仓库


ETL工具代表:SSIS、Informatica、Datastage、OWB&ODI(Oracle),SUN也有一套ETL工具,eclips的etl插件。
质量:正确性、完整性、一致性、完备性、有效性、时效性。
注意点:
第一 保证集成与加载的高效性,可以分布式分析然后汇总
第二 增强可控性,主动收集数据不要被动推送数据
第三 应制定流程化的配置管理和标准协议
第四 制定关键数据标准和非关键数据标准

0 0
原创粉丝点击