第135课: Spark面试经典系列之数据倾斜:数据倾斜是多么痛?!
来源:互联网 发布:小型机房网络拓扑 编辑:程序博客网 时间:2024/04/27 18:38
第135课: Spark面试经典系列之数据倾斜:数据倾斜是多么痛?!
1 spark性能真正的杀手
1 spark性能真正的杀手
2 数据倾斜是多么痛?!
性能调优层面:
出现jvm oom怎么办?出现数据倾斜怎么办?出现框架问题怎么办?决定spark水平高低的是,怎么进行调优?
数据倾斜不解决的话,性能调优就是一个笑话
1 数据倾斜的直接后果就是程序根本运行不起来了! OOM 速度慢
2 数据倾斜代表spark工程师的水平,数据倾斜的解决意味着对spark运行机制了如指掌
数据倾斜解决以后,性能调优就是硬件加cpu 加内存,根本之道。
数据倾斜:业务热点的二八原则 80% 20%
key值
搞定数据倾斜:
对shuffle了如指掌
对业务了如指掌
对硬件cpu了如指掌
对OOM的根本原因了如指掌 OOM一般都是由于数据倾斜所致!GC有很大压力
kafka 直接基于linux 的内核管理,不通过jvm的GC,在OS page的速度不亚于内存中的速度。
哪里看数据倾斜?定位
1、Web UI 可以清晰看见哪些个task运行的数据量大小
2、log 日志 可以清晰的告诉是哪一行出现问题OOM 在哪个stage出现了数据倾斜,一般在shuffle过程
3、代码走读,重点看join groupbykey reducebykey等关键代码;
4、对数据特征分布进行分析
0 0
- 第135课: Spark面试经典系列之数据倾斜:数据倾斜是多么痛?!
- 第135-141课:Spark面试经典系列之数据倾斜
- Spark面试经典系列之数据倾斜: 数据倾斜之痛
- 第138课: Spark面试经典系列之数据倾斜解决之采样分而治之解决方案
- 数据倾斜是多么痛?spark作业调优秘籍
- 数据倾斜是多么痛?Spark作业调优秘籍
- 数据倾斜是多么痛?spark作业调优秘籍
- 数据倾斜是多么痛?spark作业调优秘籍
- Spark系列之数据倾斜:数据倾斜之痛
- Spark系列之数据倾斜:数据倾斜之痛
- 第139课: Spark面试经典系列之数据倾斜解决之对于两个RDD数据量都很大且倾斜的Key特别多如何解决?
- 第139课: Spark面试经典系列之数据倾斜解决之对于两个RDD数据量都很大且倾斜的Key特别多如何解决?
- 第137课: Spark面试经典系列之数据倾斜解决之Map 端Reduce及问题思考
- 第140课: Spark面试经典系列之数据倾斜解决之并行度的深度使用
- 136课: Spark面试经典系列之数据倾斜解决原理和方法总论.
- Spark面试经典系列之数据倾斜解决方案的“银弹”是什么? 本节我们对Spark数据倾斜解决方案进行回顾和总结
- spark优化之数据倾斜
- spark 数据倾斜问题
- 项目里面没有R.java
- 代码:客户端与字符设备交互代码
- 网络测试笔记1
- 在Windows窗体中显示OpenCV图像
- 获取新浪微博api授权
- 第135课: Spark面试经典系列之数据倾斜:数据倾斜是多么痛?!
- 剑指offer41--扑克牌顺序
- open 和 close 函数
- 构造函数初始化、static代码块初始化、成员变量初始化、以及在子父类中混合的执行顺序实例
- hrbust 1131 波动序列【水题】
- RFID-RC522 与Arduino的连接
- Visual Studio Graphics Debugger
- 1045. Favorite Color Stripe
- java8collection