oozie 4.0.1版本功能

来源:互联网 发布:淘宝卖活鱼 编辑:程序博客网 时间:2024/06/06 15:37


oozie 1.x 运行mapreduce,pig任务的工作流job。

oozie 2.x 加入基于时间和数据触发的协调器引擎,根据配置的时间间隔和数据是否可用连续不断的运行。

oozie 3.x 提供了更高级的抽象,能够批量运行捆绑在一起的协调应用。可以很容易的对一坨应用执行开始,暂停,继续,结束,重跑等动作。


oozie的安装后需要重启hadoop集群。

提交作业:

可以通过客户端工具提交。

可以通过java API提交。

可以在本地通过启动内置的LocalOozie 来测试。


在一个工作流失败后,可以再次提交并且可以跳过前面已经执行成功的actions。

节点有控制节点和动作节点两类。名字最多20个字符(字母数字\-_

control nodes:start, end, decision, fork, join, kill

action nodes:MR,pig,email,shell,hive,sqoop等,也可以自定义。


一个job可能的状态: PREP , RUNNING , SUSPENDED , SUCCEEDED , KILLED and FAILED

oozie中的job指的是一个工作流(workflow),有别于hadoop中的概念。

工作流job可以以时间间隔或数据可用来执行,也可以被外部事件触发。

多个工作流job的输出可以作为下一个工作流job的输入,而且这两类工作流job的执行频率可以不同。


oozie所使用的时间默认是UTC,可以改为对应的时区:GMT+08:00,或者时区信息标识,java能识别的有600多个,例如:Asia/China

2.0版本整合了GMS,通过sla标签可以完成发邮件等监控功能。


在xml配置文件中,可以使用jsp的EL表达式(还有函数,复杂表达式)来使用。可以用在xml的属性值和文本元素值,不能用在元素和属性名上。


关于时间,就这样配置: 2012-08-12T08:00+0800,一天的结束可以写24点。系统自动计算为下一天的0点。

boundle 类似于协调流程组的概念,流程组内的流程之间可以有依赖。




0 0