kettle实践

来源：互联网发布：儿童节礼物知乎编辑：程序博客网时间：2024/06/06 19:59

./kitchen.sh /norep /file /usr/local/job/ssh/spark.kjb
ps -ef|grep kitchen.sh

可用linux定时任务管理kettle的job
//后台启动
./kitchen.sh /norep /file /usr/local/job/ssh/spark.kjb &

//集群windos做master,linux做slave，master调用salve执行操作
//启动集群
carte.bat 10.12.13.174 8889
./carte.sh 10.12.13.13 8081
//可查看转换状态
http://10.12.13.174:8889/kettle/status/
http://10.12.13.13:8081/kettle/status/
设置子服务器，设置为10.12.13.13，执行任务选择远程执行即可
由于提交任务到子服务器，子服务器可以监控当前任务执行状态

master配置
<slaveserver>
<name>master1</name>
<hostname>10.12.13.174</hostname>
<port>8889</port>
<master>Y</master>
</slaveserver>

子服务器配置
<slaveserver>
<name>master1</name>
<hostname>10.12.13.174</hostname>
<port>8889</port>
<username>cluster</username>
<password>cluster</password>
<master>Y</master>
</slaveserver>
</masters>
<report_to_masters>Y</report_to_masters>
<slaveserver>
<name>slave1-8081</name>
<hostname>10.12.13.13</hostname>
<port>8081</port>
<username>cluster</username>
<password>cluster</password>
<master>N</master>
</slaveserver>

//设置环境变量
export KETTLE_HOME=/usr/local/data-integration
设置环境变量后，job中可以使用/data可以使用环境变量配置的路径，但是转换却不可以，原因暂时未知

//全局变量使用
转换向job传递变量，首先要设置变量，然后就可以在job中获取
转换获取变量需要先获取变量，然后就可以在转换中使用

//任务执行模式
例如5分钟执行一次任务，启动后5分钟执行第一次任务，执行完成后以此时为起点再过五分钟执行任务

//DB连接可配置

DB连接不能再kettle.properties中获取到值，可以修改spark.kjb中connection节点，即可配置

spooh.sh 添加-Duser.timezone=GMT+0,javascript转换时区问题,启动脚本设置gmt0时区

0 0