开源ETL工具kettle--数据迁移

来源:互联网 发布:sqlserver评估期已过 编辑:程序博客网 时间:2024/05/16 14:57

背景


由于项目的需求,需要将数据从Oracle迁移到MSSQL,不是简单的数据复制,而是表结构和字段名都不一样,甚至需要处理编码规范不一致的情况,如下图所示




注意:OracleMSSQL中的同名表的字段名是不相同的

 


如果要是采用手工SQL语句操作的话会很麻烦,需要考虑

  • OracleMSSQL SQL语法的差异
  • 数据从抓取--转化--加载迁移的过程安排
  • 字段的映射
  • 外键的约束
  • 目的表是否为空
  • 等等许多问题

而这些问题对于kettle来说都不叫事,下面就为大家介绍如何使用强大的kettle实现数据的迁移

 




实战


Kettle翻译成中文是“水壶”,这个名字很形象,不管你向水壶当中添加了哪些液体或者可溶物质从壶嘴里面出来的都是均匀统一的液体。对于数据加载就是:不管数据源采用什么样的格式,Exceldatatable、纯文本或者是xmlkettle都能转化成统一的格式进行处理,并且能够更具用户的需要导出不同的格式

 

下面我们就用kettle来解决上述问题

 

首先介绍一下kettle的两个工作单元:transformationjob

transformation:实现数据的转化

job:对transformation根据依赖关系组织执行顺序,还可以对job的执行进行条件判断和预处理,用户还可以设          置job的执行时间,比如每天的9:00开始执行job,这和持续构建中的job意思一样。



看一下这款神奇的软件长的什么样子



首先我们创建一个transformation,命名:tr_stu_and_class,如下图所示,目的是先将学生和班级的信息从Oracle迁移到mssql


然后创建第二个transformation,命名tr_stuclasslink,如下图所示,目的是将学生和班级的关系从oracle迁移到mssql



因为第三张关系表TB_STUCLASSLINKTB_STUDENTTB_CLASS存在外键依赖关系,所以必须先执行tr_stu_and_class再执行tr_stuclasslink。所以我们需要一个job(命名jb_orcl2mssql)来组织他们的执行顺序,如下图所示



接下来运行job就可以在瞬间实现数据迁移






总结

transformation中可以自定义字段的映射关系(如从oracle表中的哪一列迁移到mssql表中的哪一列),可以指定迁移哪些列

 

利用图形化的模块化的方式,更加高效和直观

 

如果是大批量复杂的数据迁移,使用kettle可以更好的组织数据迁移

 

创建的transformationjob都会被保存起来,什么时候需要迁移数据,点一下按钮就ok

 

怎么样是不是很简单很强大


补充

kettle是开源的

kettle几乎支持所有数据库、Excelxml等常见的数据格式的迁移转换。你能想到的它几乎都支持



数据迁移只是kettle功能中很小的一部分,kettle不仅是ETL工具更是强大的BI工具,有兴趣的童鞋们可以研究一下

 

附下载地址

http://sourceforge.net/projects/pentaho/files/Data%20Integration/5.0.1-stable/pdi-ce-5.0.1.A-stable.zip/download


3 0