第135课: Spark面试经典系列之数据倾斜:数据倾斜是多么痛?!

来源:互联网 发布:小型机房网络拓扑 编辑:程序博客网 时间:2024/04/27 18:38
第135课:  Spark面试经典系列之数据倾斜:数据倾斜是多么痛?!
1 spark性能真正的杀手

2 数据倾斜是多么痛?!


性能调优层面:

出现jvm oom怎么办?出现数据倾斜怎么办?出现框架问题怎么办?决定spark水平高低的是,怎么进行调优?


数据倾斜不解决的话,性能调优就是一个笑话
1 数据倾斜的直接后果就是程序根本运行不起来了! OOM 速度慢
2 数据倾斜代表spark工程师的水平,数据倾斜的解决意味着对spark运行机制了如指掌



数据倾斜解决以后,性能调优就是硬件加cpu 加内存,根本之道。


数据倾斜:业务热点的二八原则 80% 20%
key值




搞定数据倾斜:
对shuffle了如指掌 
对业务了如指掌 
对硬件cpu了如指掌
对OOM的根本原因了如指掌 OOM一般都是由于数据倾斜所致!GC有很大压力


kafka 直接基于linux 的内核管理,不通过jvm的GC,在OS page的速度不亚于内存中的速度。


哪里看数据倾斜?定位
1、Web UI 可以清晰看见哪些个task运行的数据量大小
2、log 日志 可以清晰的告诉是哪一行出现问题OOM  在哪个stage出现了数据倾斜,一般在shuffle过程

3、代码走读,重点看join groupbykey reducebykey等关键代码;

4、对数据特征分布进行分析




0 0
原创粉丝点击