apache hadoop 2.7.2 yarn node label测试结果

来源:互联网 发布:家长控制电脑软件 编辑:程序博客网 时间:2024/06/05 11:04

版本hadoop2.7.2

(1)capacity schedule只支持fifo调度策略,cdh或者hdp版本会有支持fair的调度策略,但是社区版目前还不支持。

(2)yarn node label 只支持capacity schedule,不支持fair schedule

(3)yarn node label社区版功能很不完善,具体表现
(3.1)该版本创建分区无法指定是可共享的,即无法指定yarn rmadmin -addToClusterNodeLabels “label_1(exclusive=true)”,会报错

(3.2)该版本中指定队列提交的默认分区不生效,比如队列queue设置默认提交到label1分区,在该版本中不生效,还是只能提交到default分区。官方文档是提到可以通过指定队列的默认提交分区来实现,但是实际测试中并不可行。

(3.3)一个nodemanger赋值一个分区标签后,无法恢复到default分区,但是可以修改为其他分区标签。

(3.4)暂时不支持MR任务指定分区提交任务。hadoop2.8后支持,详见MAPREDUCE-6304,也可以自己打patch,验证测试通过。支持的方式是可以通过指定参数mapreduce.job.node-label-expression等参数来实现。

(3.5)当前版本bug还是比较多的,建议使用的话升级到hadoop2.8.0。会有很大的提升。hdp版本的hadoop2.7.3也可以使用。

另外,spark任务可以通过spark-submit方式指定参数spark.yarn.am.nodeLabelExpression和spark.yarn.executor.nodeLabelExpression来实现,使任务提交到特定的分区。hadoop distribute shell也可以。另外还可以通过yarn代码的方式提交。