ETL是什么?
来源:互联网 发布:搜房网软件 编辑:程序博客网 时间:2024/06/05 13:30
ETL是什么,在经过强大的搜索后,将自己的理解整理如下:
ETL
extraction-transformation-loading,extract\transform\load
是生命线,贯穿于项目的始终,并直接影响到最终的结果展现,是根基
ETL搭建了OLTP和OLAP系统之间的桥梁,瓶颈来自与服务器的性能:ETL主要利用转换服务器的处理能力,从源表抽取数据后,在转换服务器中进行数据清洗、转换、完成后加载到目标库中,转换过程都是在转换服务器中进行的。
数据抽取、数据的清洗转换、数据的加载
T过程时间最长,2/3(Transform,清洗、转换)
ETL三种方法:1、工具(Oracle:OWB、SQLServer:DTS、SQLServer2005:SSIS、Informatic.......) 2、SQL方法实现 3、ETL工具+SQL结合
DW (DataWarehousing 数据仓库)
清洗是确认是否过滤掉,还是由业务单位修正之后再进行抽取。
不符合的数据:不完整的数据、错误的数据、重复的数据(通常)分为这三大类
1.)不完整的数据:信息缺失、业务系统中主表与明细表不能匹配。
2.)错误的数据:全角数字字符、字符串数据日期格式不正确、日期越界
3.)重复的数据:
数据转换:不一致的数据转换、数据粒度的转换、一些商务规则的计算
ETL日志:1.)执行过程日志 2.)错误日志 3.)总体日志
1.数据收集
a.收集位置多样:不同服务器,不同位置
b.收集数据形式多样:不同存储文件,不同存储格式
2.分析转换统一数据形式
a.分析解析不同文件和不同数据格式
b.将不同格式数据转换为统一格式
c.合并收集的数据
3.将统一格式数据导入数据仓库
ETL工具代表:SSIS、Informatica、Datastage、OWB&ODI(Oracle),SUN也有一套ETL工具,eclips的etl插件。
质量:正确性、完整性、一致性、完备性、有效性、时效性。
注意点:
第一 保证集成与加载的高效性,可以分布式分析然后汇总
第二 增强可控性,主动收集数据不要被动推送数据
第三 应制定流程化的配置管理和标准协议
第四 制定关键数据标准和非关键数据标准
- ETL是什么?
- ETL是什么?
- ETL是什么(一)
- ETL学习笔记之一:ETL是什么?
- ETL学习笔记之一:ETL是什么?
- ETL学习笔记之一:ETL是什么? 收藏
- ETL学习笔记之一:ETL是什么?
- 数据库:ETL学习笔记之一:ETL是什么?
- ETL学习笔记之一:ETL是什么?
- ETL是什么(最有意思的比喻)
- ETL
- ETL
- ETL
- ETL
- ETL
- ETL
- ETL
- ETL
- 微信支付扫码支付
- 【NOIP2016提高A组集训第10场11.8】时空传送
- [noip2015pj] 扫雷游戏
- java基础知识之Java程序初始化顺序
- C++学习笔记(三)
- ETL是什么?
- graphics 架构
- C++之继承关系总结
- 选择排序(SelectSort)
- JSON
- Linux学习37_LINUX下设置网卡开机自启动
- Android 实现心电图
- ES6-let篇
- 类的单例模式之饿汉式