kettle实践

来源:互联网 发布:儿童节礼物 知乎 编辑:程序博客网 时间:2024/06/06 19:59
./kitchen.sh /norep /file /usr/local/job/ssh/spark.kjb 
ps -ef|grep kitchen.sh

可用linux定时任务管理kettle的job
//后台启动
./kitchen.sh /norep /file /usr/local/job/ssh/spark.kjb & 

//集群windos做master,linux做slave,master调用salve执行操作
//启动集群
carte.bat 10.12.13.174 8889
./carte.sh 10.12.13.13 8081
//可查看转换状态
http://10.12.13.174:8889/kettle/status/
http://10.12.13.13:8081/kettle/status/
设置子服务器,设置为10.12.13.13,执行任务选择远程执行即可
由于提交任务到子服务器,子服务器可以监控当前任务执行状态

master配置
<slaveserver>
    <name>master1</name>
    <hostname>10.12.13.174</hostname>
    <port>8889</port>
    <master>Y</master>
 </slaveserver>

子服务器配置
    <slaveserver>
      <name>master1</name>
      <hostname>10.12.13.174</hostname>
      <port>8889</port>
      <username>cluster</username>
      <password>cluster</password>
      <master>Y</master>
    </slaveserver>
  </masters>
  <report_to_masters>Y</report_to_masters>
  <slaveserver>
    <name>slave1-8081</name>
    <hostname>10.12.13.13</hostname>
    <port>8081</port>
    <username>cluster</username>
    <password>cluster</password>
    <master>N</master>
  </slaveserver>
 
//设置环境变量
export KETTLE_HOME=/usr/local/data-integration
设置环境变量后,job中可以使用/data可以使用环境变量配置的路径,但是转换却不可以,原因暂时未知


//全局变量使用
转换向job传递变量,首先要设置变量,然后就可以在job中获取
转换获取变量需要先获取变量,然后就可以在转换中使用


//任务执行模式
例如5分钟执行一次任务,启动后5分钟执行第一次任务,执行完成后以此时为起点再过五分钟执行任务


//DB连接可配置

DB连接不能再kettle.properties中获取到值,可以修改spark.kjb中connection节点,即可配置


spooh.sh 添加-Duser.timezone=GMT+0,javascript转换时区问题,启动脚本设置gmt0时区


0 0
原创粉丝点击