第135课： Spark面试经典系列之数据倾斜：数据倾斜是多么痛？！

来源：互联网发布：小型机房网络拓扑编辑：程序博客网时间：2024/04/27 18:38

第135课： Spark面试经典系列之数据倾斜：数据倾斜是多么痛？！
1 spark性能真正的杀手

2 数据倾斜是多么痛？！

性能调优层面：

出现jvm oom怎么办？出现数据倾斜怎么办？出现框架问题怎么办？决定spark水平高低的是，怎么进行调优？

数据倾斜不解决的话，性能调优就是一个笑话
1 数据倾斜的直接后果就是程序根本运行不起来了！ OOM 速度慢
2 数据倾斜代表spark工程师的水平，数据倾斜的解决意味着对spark运行机制了如指掌

数据倾斜解决以后，性能调优就是硬件加cpu 加内存，根本之道。

数据倾斜：业务热点的二八原则 80% 20%
key值

搞定数据倾斜：
对shuffle了如指掌
对业务了如指掌
对硬件cpu了如指掌
对OOM的根本原因了如指掌 OOM一般都是由于数据倾斜所致！GC有很大压力

kafka 直接基于linux 的内核管理，不通过jvm的GC，在OS page的速度不亚于内存中的速度。

哪里看数据倾斜？定位
1、Web UI 可以清晰看见哪些个task运行的数据量大小
2、log 日志可以清晰的告诉是哪一行出现问题OOM 在哪个stage出现了数据倾斜，一般在shuffle过程

3、代码走读，重点看join groupbykey reducebykey等关键代码；

4、对数据特征分布进行分析

0 0