Spark数据本地性
来源:互联网 发布:java与传感器通信 编辑:程序博客网 时间:2024/06/06 14:28
一. 概述
Spark中的数据本地性分为两种
- executor 层面的数据本地性
- task 层面的数据本地性
在两种本地性中,task层面的数据本地性是由Spark本身决定的,而executor的分发则是Cluter Manager控制的,因此下文主要描述在不同Cluster Manager中的executor分发机制。
Spark Standalone
Standalone提供了两种executor的分发模式。
由参数spark.deploy.spreadOut
控制,默认为true
,将会把executor分配到尽可能多的worker上,因此通常都能提供非常良好的数据本地性。如果设置为false(不建议),会将executor优先分配到一台机器中,能提供更高的机器使用率。
Spark on Yarn
在Spark on Yarn方式下,如果启用了Dynamic Allocation
并设置spark.dynamicAllocation.initialExecutors
为一个较低的值(例如0)。则在pending task申请executor时,就会判断任务的数据本地性,并且在有数据的节点上启动executor。Spark on Mesos
mesos会先offer给spark一个空闲的slave,spark会在上面启动executor,直到slave占满,mesos会再发一个新的offer过来。这种做法类似于standalone关闭spreadOut的效果,因此会导致某些节点load非常高,而一些节点异常空闲情况。
解决方式有2个:- 修改spark源码解决这个问题(接收到一个offer的时候只启动一个executor),在spark2.0的基础上只需要改动
MesosCoarseGrainedSchedulerBackend
中buildMesosTasks
那段代码即可。 - 配合docker,marathon解决。
修改mesos调度前:
修改mesos调度后:
观察到本地性有较大的提升,运行时间缩短了25%左右。离线任务运行时间波动减少,趋于稳定
- 修改spark源码解决这个问题(接收到一个offer的时候只启动一个executor),在spark2.0的基础上只需要改动
二. 结语
通过上述来看,目前Spark on Yarn + Dynamic Allocation
的方式在executor的数据本地性上有着一定的优势。
分布式计算的瓶颈往往出现在IO上,因此良好的数据本地性能提高程序的整体运行速度。在机器较多的集群中,为了拥有更好的数据本地性,最简单的一种方式就是通过启动更多的executor来实现。
例如需要一个<4 cores, 20G RAM>
的Spark Application。如果只启动一个executor,那么只会运行在一台节点上,其他机器的数据则需要通过网络IO来获取。如果启动4个executor,每个executor使用<1 cores,5G RAM>
,那么executor将能分布到更多的节点上,获取更好的数据本地性。
当磁盘io成为程序瓶颈的解决方法:
1.使用多块硬盘(最简单有效),可以使用ssd存放部分spark计算的中间结果。
2.通过压缩减少本地磁盘IO,对计算的中间结果压缩,在取数据时还要进行解压。
spark.shuffle.spill.compress true(默认)
3.优化程序,减少shuffle
通过压缩的两个配置其实使用cpu换磁盘io和网络io,如果在磁盘io不是瓶颈的计算密集型作业中,如此设置反而会降低运行效率。所以应观察应用,根据情况进行调整。
网络IO优化
通过压缩减少网络IO,减少即将进行shuffle的本地数据。
这样需要shuffle的数据就需要压缩->网络传输->解压缩三个步骤
spark.shuffle.compress true(默认)
- Spark数据本地性
- Spark数据本地性
- Spark数据本地性
- spark读取hdfs数据本地性异常
- Spark性能调优-数据本地性
- spark读取hdfs数据本地性异常
- Spark性能调优-数据本地性
- Spark不同Cluster Manager下的数据本地性表现
- Spark 之 Stage划分、数据本地性算法实现
- Spark性能优化第五季-数据本地性调优
- TaskScheduler解密:Spark shell案例,TaskScheduler和SchedulerBackend、FIFO与FAIR模式调度解密、Task数据本地性资源分配
- RegionServer数据本地性
- idea本地调试spark
- spark本地模式
- Spark 本地模式
- python本地开发spark
- spark本地调试hive
- 本地执行Spark程序示例
- Cassandra集群快速入门
- Java SE、Java EE、Java ME三者的区别
- Eclipse中使用Servlet
- php 可变变量
- Socket心跳包,Socket长连接之旅
- Spark数据本地性
- 拖拽之实例购物车
- char与TCHAR相互转化
- css 知识点记录
- C语言SOCKET编程
- 信号量
- unity ugui图片自适应文字内容大小
- Lucene同义词检索同时精确提取自定义关键词(Lucene版本5.3.0)
- JavaMail入门第一篇 邮件简介及API概述