Kettle学习之路(3)理解一些基本概念

来源:互联网 发布:社会与经济统计数据库 编辑:程序博客网 时间:2024/05/21 09:57


Kettle包括了在ETL开发和部署阶段用到的多个程序,每个程序都有独立功能。

 

Spoon:集成开发环境。提供了一个图形化用户界面,用于创建/编辑作业或者转换,也可以用于执行/调试作业或者转换,也有性能监控功能。

 

Kitchen:作业的命令行运行程序,通过shell脚本来调用。

 

Pan:转换的命令行运行程序,和kitchen一样通过shell脚本来调用。执行转换而不是作业。

 

Carte:轻量级的Http服务器,后台运行,监听Http请求来运行一个作业,Carte也是用于分布或协调跨机器执行作业,也就是kettle集群。

 

ETL系统中实际被34种子系统所重构。这34种子系统提供了一套框架帮助我们理解ETL解决方案的实现和管理。并对其进行分类。这34个子系统中的很多都是管理类型的子系统,主要是因为当项目发布时,系统生命周期才刚刚开始。管理是子系统4个组成部分的一个,子系统的4个组成部分如下:

抽取:1~3属于这个主题

清洗和更正:4~8属于这个主题

发布:9~21关于如何把数据发布到目标数据库中,也包括数据写入到维度表活事实表中的那些转换。

管理:22~34属于这个主题

1、 数据剖析系统:分析不同数据源的结构和内容。

2、 增量数据不活:捕获源系统里的数据变化(如时间戳、快照)

3、 抽取:从不同数据源抽取数据,并输入到ETL系统里(包括静态数据和动态数据)。

4、 数据清洗:修改或整理进入到ETL流程里的脏数据。

5、 错误事件处理:记录下ETL过程中的每一个错误。

6、 审计维度:审计维度表与数据仓库里的所有事实表关联。包含了对事实表变更的元数据。如加载数据的日期和时间、数据质量指标等。

7、 排除重复记录系统。

8、 数据一致性:数据经过数据排重子系统和前面提到的其他数据步骤处理后,就交给数据一致性子系统来处理。目的是使来源于多个业务系统的事实数据遵照相同的维度。

9、 缓慢变更维度处理:1)覆盖2)增加新行3)增加新列。

10、代理键生成系统。

11、层次维度构建。

12、特殊维度生成系统。

13、事实表加载。

14、代理键管道。

15、多值维度表桥接生成系统。

16、迟到数据处理。

17、维度管理系统。

18、事实表管理系统。

19、聚集构建。

20OLAPCube构建系统。

21、数据整合管理系统。

22、作业调度。

23、备份系统。

24、恢复和重新启动系统。

25、版本控制系统

26、从开发环境到测试生产的版本移植系统

27、工作流程监控

28、排序系统

29、血统和依赖分析

30、问题报告系统

31、并行\管道系统

32、安全系统

33、合规报告系统

34、元数据资源管理系统

0 0
原创粉丝点击