Spark性能调优之合理设置并行度
来源:互联网 发布:sem seo谷歌 编辑:程序博客网 时间:2024/05/29 16:21
转:http://www.cnblogs.com/haozhengfei/p/e19171de913caf91228d9b432d0eeefb.html
Spark性能调优之合理设置并行度
1.Spark的并行度指的是什么?
task没有设置,或者设置的很少,比如就设置了,100个task 。 50个executor ,每个executor 有3个core ,也就是说
Application 任何一个stage运行的时候,都有总数150个cpu core ,可以并行运行。但是,你现在只有100个task ,平均分配一下,每个executor 分配到2个task,ok,那么同时在运行的task,只有100个task,每个executor 只会并行运行 2个task。 每个executor 剩下的一个cpu core 就浪费掉了!你的资源,虽然分配充足了,但是问题是, 并行度没有与资源相匹配,导致你分配下去的资源都浪费掉了。合理的并行度的设置,应该要设置的足够大,大到可以完全合理的利用你的集群资源; 比如上面的例子,总共集群有150个cpu core ,可以并行运行150个task。那么你就应该将你的Application 的并行度,至少设置成150个,才能完全有效的利用你的集群资源,让150个task ,并行执行,而且task增加到150个以后,即可以同时并行运行,还可以让每个task要处理的数量变少; 比如总共 150G 的数据要处理, 如果是100个task ,每个task 要计算1.5G的数据。 现在增加到150个task,每个task只要处理1G数据。
2.如何去提高并行度?
1、task数量,至少设置成与spark Application 的总cpu core 数量相同(最理性情况,150个core,分配150task,一起运行,差不多同一时间运行完毕)官方推荐,task数量,设置成spark Application 总cpu core数量的2~3倍 ,比如150个cpu core ,基本设置 task数量为 300~ 500. 与理性情况不同的,有些task 会运行快一点,比如50s 就完了,有些task 可能会慢一点,要一分半才运行完,所以如果你的task数量,刚好设置的跟cpu core 数量相同,可能会导致资源的浪费,因为 比如150task ,10个先运行完了,剩余140个还在运行,但是这个时候,就有10个cpu core空闲出来了,导致浪费。如果设置2~3倍,那么一个task运行完以后,另外一个task马上补上来,尽量让cpu core不要空闲。同时尽量提升spark运行效率和速度。提升性能。
2、如何设置一个Spark Application的并行度?
spark.defalut.parallelism 默认是没有值的,如果设置了值比如说10,是在shuffle的过程才会起作用(val rdd2 = rdd1.reduceByKey(_+_) //rdd2的分区数就是10,rdd1的分区数不受这个参数的影响)
new SparkConf().set(“spark.defalut.parallelism”,”“500)
- Spark性能调优之合理设置并行度
- Spark性能调优之合理设置并行度
- Spark性能调优之合理设置并行度
- Spark性能调优:合理设置并行度
- spark性能调优之提高并行度
- Spark性能调优-并行度调优
- 大数据Spark “蘑菇云”行动第94课:Hive性能调优之Mapper和Reducer设置、队列设置和并行执行、JVM重用和动态分区、Join调优
- [3.0.1]性能调优之调节并行度
- 49.性能调优之调节并行度
- Spark之性能优化(重点:并行流数据接收)
- 大数据Spark “蘑菇云”行动第72课: 基于Spark 2.0.1项目实现之二. 实战 各种小bug修复及性能调优 200并行度调整为2个task
- spark性能调优之分配资源
- Spark---性能调优之资源调优篇
- spark性能调优之数据本地化
- Spark性能优化之开发调优
- Spark性能优化之资源调优
- 性能调优之在实际项目中调节并行度
- 第94课:Hive性能调优之Mapper和Reducer设置、队列设置和并行执行、JVM重用和动态分区、Join调优等
- Unity中以一定的角速度转向目标
- 生产消费者模型
- Java并发编程:volatile关键字解析
- APT
- MySQL 按日期分表
- Spark性能调优之合理设置并行度
- CSS3四个自适应关键字——fill-available、max-content、min-content、fit-conten
- 树的子结构
- JRE和JDK的区别
- Python 运算符
- SCUT Training 20170913 Problem G
- appium新手入门(2)—— 安装 Android SDK
- C#修改文件或文件夹的权限,为指定用户、用户组添加完全控制权限
- 简单说下String、StringBuffer和StringBuilder的区别