ETL简单的操作以及开发方式记录(KETTLE)一

来源:互联网 发布:摄影样片 知乎 编辑:程序博客网 时间:2024/05/18 16:16

最近由于比较多的与新的第三方系统进行各种数据的交互,免不了要把实时的用户表格以及代码表格同步过去,这个时候我们就想说使用比较低成本和简单的方式把我们需要的数据正确的同步到一个中间库中去,然后再由第三方系统通过同样的方式从中间库中取得相关的数据。

于是我们就使用上了ETL

ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。                                         --百度百科

说的明白点ETL就是可以实现多个数据库之间的数据转存的一种技术吧,也就是从DB1中将某些数据以一定的逻辑转存到DB2的指定表格中。

接下来我们就要讲到我们所使用的工具了,由于我们的工作的情况,所以我在这里使用的是KETTLE作为我们的ETL工具。(注:ETL的概念和WEB-APP这样,可以使用各种不同的方式进行实现JAVA,PHP等等,试情况和选择而定)。

在这里我们先介绍下所使用的工具

Kettle是一款国外开源的ETL工具,纯java编写,可以在WindowLinuxUnix上运行,数据抽取高效稳定。  --百度百科

KETTLE就是其中的一种,他是使用java进行编写的,由于这一点所以我们可以预见到如果我们需要运行这个KETTLE你至少需要在运行的环境上安装JRE,不然大家都懂的,我在这里使用的JRE1.5kettle

第一个简单的ETL实例:

打开,这里没有什么信息的时候千万莫要惊慌,如没有直接点击NO就可以了


点进来之后照例一欢迎界面,我们暂时不管这个,依照这种的桌面应用的惯例我们直接File-new


直接新建一个Transformation(变化)


出来了一个全新的页面,大概就是我们新增的变换了,看到页面的左侧存在着一列控件,然后我们先新建一个INPUT(输入)


点击双击打开我们这个新建的Table input


新建连接信息(要数据提取总是得先连上数据库嘛)


填完各项信息之后点击下Test测试下连接是否能够正常建立


然后我们新增一个OUTPUT具体的方法也就是从左侧的Design栏位中拖过来即可,然后我们连接来年inputoutput(按住SHIFT点击鼠标拖动过来就可以连接两个对象了)


input中写数据提取的SQL(也就是一个查询的SQL),由于是一个简单的例子我们创建了一个简单的表格,并在其中简单的填写了一些测试的数据。


当然我们还需要一张目标表格



双击OUTPUT设置目标表格以及目标数据库的各种信息

\

然后我们就可以点击页面上面的运行按钮进行运行了


我们去数据库里面察看我们目的表格,看数据有没有导入到其中,如果能成功的话显而易见将获得如下的结果


注:由于上文中的图片上传麻烦所以尽量的省略了各个不必要或者是比较显而易见的步骤截图和描述



1 0
原创粉丝点击