Spark调优第一篇

来源：互联网发布：经济通行情软件编辑：程序博客网时间：2024/06/15 02:45

最初级的早启动spark-shell时这些设置的

./bin/spark-submit \

--master yarn-cluster \

--num-executors 100 \

--executor-memory 6G \

--executor-cores 4 \

--driver-memory 1G \

--conf spark.default.parallelism=1000 \

--conf spark.storage.memoryFraction=0.5 \

--conf spark.shuffle.memoryFraction=0.3 \

通过spark的资源管理界面可以看到每个exceutors中cores和tasks的具体执行情况

很多时候在想集群申请了资源后通过这看到的executors的task和cores还是空闲的，数据基本分布在少量的executor上

那么两点：

1，确实只用了少量的资源最初申请的资源浪费了

2，这个页面是随着stage的运行动态刷新的意味着每个excecutors上的分配的数据执行完后就显示空闲了比如我这个截图（实际任务执行的飞起！！！）

剩下的纯属猜测了

对数据repartition之后如果是大于excecutors的数量，则会排队分配给executors执行比如repartition（300），executors：30,则driver先把

数据拿30分分给executors,等这些数据处理完了再分配新的数据。

所以repartition分的少于excecutors不行不能少而且太少好会出Size exceeds Integer.MAX_VALUE的错误

如果分的比较少executors的内存hold不住要计算的数据所以OOM了

如果分的太多意味着executors要反复执行，效率会降低。（但是感觉只要executors不是闲置了，基本不会有影响）

基本是在YY

最后

补充一下调参的方式除了在spark-shell启动时加在后面还可以

修改配置文件(不提倡)：

SPARK配置参数的两个地方：

1. $SPARK_HOME/conf/spark-env.sh 脚本上配置。配置格式如下：

export SPARK_DAEMON_MEMORY=1024m

感觉spark_default.xml中也有相关参数的配置

2. 编程的方式（程序中在创建SparkContext之前，使用System.setProperty（“xx”，“xxx”）语句设置相应系统属性值)，即在spark-shell下配置

如：scala> System.setProperty("spark.akka.frameSize","10240m")

阅读全文

0 0