Kettle学习之路(3)理解一些基本概念
来源:互联网 发布:社会与经济统计数据库 编辑:程序博客网 时间:2024/05/21 09:57
Kettle包括了在ETL开发和部署阶段用到的多个程序,每个程序都有独立功能。
Spoon:集成开发环境。提供了一个图形化用户界面,用于创建/编辑作业或者转换,也可以用于执行/调试作业或者转换,也有性能监控功能。
Kitchen:作业的命令行运行程序,通过shell脚本来调用。
Pan:转换的命令行运行程序,和kitchen一样通过shell脚本来调用。执行转换而不是作业。
Carte:轻量级的Http服务器,后台运行,监听Http请求来运行一个作业,Carte也是用于分布或协调跨机器执行作业,也就是kettle集群。
在ETL系统中实际被34种子系统所重构。这34种子系统提供了一套框架帮助我们理解ETL解决方案的实现和管理。并对其进行分类。这34个子系统中的很多都是管理类型的子系统,主要是因为当项目发布时,系统生命周期才刚刚开始。管理是子系统4个组成部分的一个,子系统的4个组成部分如下:
抽取:1~3属于这个主题
清洗和更正:4~8属于这个主题
发布:9~21关于如何把数据发布到目标数据库中,也包括数据写入到维度表活事实表中的那些转换。
管理:22~34属于这个主题
1、 数据剖析系统:分析不同数据源的结构和内容。
2、 增量数据不活:捕获源系统里的数据变化(如时间戳、快照)。
3、 抽取:从不同数据源抽取数据,并输入到ETL系统里(包括静态数据和动态数据)。
4、 数据清洗:修改或整理进入到ETL流程里的脏数据。
5、 错误事件处理:记录下ETL过程中的每一个错误。
6、 审计维度:审计维度表与数据仓库里的所有事实表关联。包含了对事实表变更的元数据。如加载数据的日期和时间、数据质量指标等。
7、 排除重复记录系统。
8、 数据一致性:数据经过数据排重子系统和前面提到的其他数据步骤处理后,就交给数据一致性子系统来处理。目的是使来源于多个业务系统的事实数据遵照相同的维度。
9、 缓慢变更维度处理:1)覆盖2)增加新行3)增加新列。
10、代理键生成系统。
11、层次维度构建。
12、特殊维度生成系统。
13、事实表加载。
14、代理键管道。
15、多值维度表桥接生成系统。
16、迟到数据处理。
17、维度管理系统。
18、事实表管理系统。
19、聚集构建。
20、OLAPCube构建系统。
21、数据整合管理系统。
22、作业调度。
23、备份系统。
24、恢复和重新启动系统。
25、版本控制系统
26、从开发环境到测试生产的版本移植系统
27、工作流程监控
28、排序系统
29、血统和依赖分析
30、问题报告系统
31、并行\管道系统
32、安全系统
33、合规报告系统
34、元数据资源管理系统
- Kettle学习之路(3)理解一些基本概念
- Kettle学习之路(1)理解一些基本概念
- Kettle学习之路(2)理解一些基本概念
- JAVA学习随笔(3)-一些基本概念
- WCF学习之基本概念的理解
- nodejs学习之路(一)基本概念
- 理解JavaScript的一些基本概念
- 通用块层学习3 一些基本概念
- wcf学习--基本概念理解
- 【Cocos2D学习】基本概念理解
- 学习C的一些基本概念(一)
- 机器学习一些基本概念(笔记)
- 机器学习一些基本概念
- C++学习之路: 基本概念
- Kettle学习之错误处理
- Kettle学习之调度计划
- kettle学习之oracle-csv
- kettle学习之csv-oracle
- win server 2003域控制器加入远程用户
- android7.0多窗口适配方案,你值得拥有
- Android7.0 popwindow适配
- linux常见指令与权限管理
- C语言中的const,volatile,restrict用法总结
- Kettle学习之路(3)理解一些基本概念
- 初识高德地图和百度地图
- 软件分析 加密狗复制 vidi深度学习软件
- iOS UITableView和UITableViewCell滚动和NSTimer计时
- 网址短连接 short url
- mongodb(二)-- mongodb shell及基本操作
- HTTP 以及 Ajax学习整理
- Java 中 Vector 、 Stack 、 CopyOnWriteArrayList 的实现解析
- android反编译与加固(Mac版)