Spark本地化调度

来源:互联网 发布:马云淘宝的成功 编辑:程序博客网 时间:2024/06/10 15:44

Spark的task一般都会分发到它所需数据的那个节点,这称之为”NODE_LOCAL”。


但在资源不足的情况下,数据所在节点未必有资源处理task,因此Spark在等待了“spark.locality.wait”所配置的时间长度后,会退而求其次,分发到数据所在节点的同一个机架的其它节点上,这是“RACK_LOCAL”。


当然,也有更惨的,就是再等了一段“spark.locality.wait”的时间长度后,干脆随便找一台机器去跑task,这就是“ANY”策略了。


来自: Spark技术日报-Spark Streaming应用与实战全攻略