spark-大表join优化方案

来源：互联网发布：google 云计算入华编辑：程序博客网时间：2024/04/19 09:13

数据量：
1~2G左右的表与3~4T的大表进行Join

拆分
将任务数据分为多个结果RDD，将各个RDD的数据写入临时的hdfs目录，最后合并

取所需的字段和数据，并去重，减少data shuffle的规模

调整并行度和shuffle参数

spark-submit 参数

#提高shuffle阶段的任务并行度，降低单个任务的内存占用--conf spark.default.parallelism=2000 #提高shuffle 缓冲区大小--conf spark.shuffle.file.buffer=128k #增加堆外内存大小--conf spark.yarn.executor.memoryOverhead=1g

增加资源

这就不细说了，num-executors 不是越多越好有边界

优化数据倾斜

检查数据是否是skewed data，即join出的key value pair大小极度不均，解决方案可以参考：
https://zhuanlan.zhihu.com/p/21483985

阅读全文

0 0

spark-大表join优化方案
spark join broadcast优化
spark join broadcast优化
MySQL大表优化方案
MySQL大表优化方案
MySQL大表优化方案
Mysql大表优化方案.
MySQL 大表优化方案
MySQL 大表优化方案
MySQL 大表优化方案
MySQL大表优化方案
MySQL大表优化方案
MySQL大表优化方案
MySQL 大表优化方案
MySQL 大表优化方案
MySQL 大表优化方案
MySQL大表优化方案
MySQL大表优化方案
CONNECT BY理解
Android线程—Volatile关键字(一)
mxnet学习序列
Java多线程之同步类容器与并发容器
H264编码和解码的问题——b intra refresh
spark-大表join优化方案
MVVM
删除已使用过且无法删除的替代
Vue component-based application structure
split
linux中获取/更新Let’s encrypt 证书的脚本
Adobe cc 2017 全系列软件下载附破解安装教程
解决LinearLayout中控件不能居右对齐
Cloudera Hive传统权限管理设置