解决kettle调度效率低,不可高并发调度方法
来源:互联网 发布:数据分析之量化投资 编辑:程序博客网 时间:2024/06/06 19:49
“我在spoon里面运行一个作业只要几秒种,但是在命令行中运行却要好几十秒?”
“并行同时运行几个job,就把内存撑爆了,Kettle好占资源呀!”
Kettle作为用户规模最多的开源ETL工具,强大简洁的功能深受广大ETL从业者的欢迎。但kettle本身的调度监控功能却非常弱。连Pentaho官方都建议采用crontab(Unix平台)和计划任务(Windows平台)来完成调度功能。调用kettle作业,实际上是通过pan和kitchen命令去调用。每一次调用都会重新初始化kettle运行环境,这个过程占用大量的时间。并且每启动一个kettle运行环境都相当于启动一个JVM进程。每个JVM则会占用几百兆(默认设置)的内存。所以同时运行几个作业,也会消耗大量内存资源。极端情况则可能会导致kettle内存溢出,产生致命错误。
https://my.oschina.net/u/944575/blog/1557410
http://www.taskctl.com/forum/detail_124.html
上述是Taskctl出的解决方案,但是如果我本身不愿意在多学习一个调度工具,其实也是可以用这个的。安装这个服务后,默认会生成两个调度插件,分别对应trans和job两种类型的。我们现在需要做的就是用crontab调用调度插件,配合着正确的参数值,就可以正常调度了,非常简单,而且效率也很高。
下面是我调度Linux下kettle配置的一个crontab范例,仅供大家参考
0 0 * * * /home/kettle/shell/cprunsoapktr.sh “/home/kettle/mykettle/my.ktr” “” “”
这个是我们trans作业。是直接调用文件,而且也没有参数,如果有差异,在安装服务是按需选择,调用的时候有细微的差异。执行效率比原来有大幅的提升,而且也不在开辟多个JVM环境,造成服务器资源的问题
阅读全文
1 0
- 解决kettle调度效率低,不可高并发调度方法
- kettle调度
- Kettle调度和监控
- kettle脚本调度
- Kettle调度和监控
- kettle 作业调度
- Kettle调度和监控
- Kettle调度实现
- Kettle学习之调度计划
- windwos下调度kettle任务
- kettle调度监控最佳实践
- 详解应对平台高并发的分布式调度框架TBSchedule
- 详解应对平台高并发的分布式调度框架TBSchedule
- 详解应对平台高并发的分布式调度框架TBSchedule
- 详解应对平台高并发的分布式调度框架TBSchedule
- 详解应对平台高并发的分布式调度框架TBSchedule
- 详解应对平台高并发的分布式调度框架TBSchedule
- 调度
- qq引流新技能
- [noip2013]小朋友的数字(dp+规律)
- c语言实现对密码(字符串)进行加密,并解密
- 面向对象设计原则总结
- CMake error: error in configuration process, project files may be invalid
- 解决kettle调度效率低,不可高并发调度方法
- 23种设计模式类图总结
- 装饰模式
- 【linux 学习】tar命令详解(总结)
- AOSuite添加jar包
- ajaxFileUpload 图片上传工具
- JS中改变css样式的方法JavaScript
- Brackets Removal UVA
- 日期类型的比较与转换(date Calendar timestamp):