spark优化
来源:互联网 发布:xt800远程控制软件 编辑:程序博客网 时间:2024/06/05 14:21
1. 多次filter操作后,RDD中partition的数据量会越来越少,当很小接近于空的时候,会损耗性能
解决: 利用coalesce 或 repartition(强制shuffle)减少RDD中partition数量
2. 海量记录getConn,每个partition里的每条记录get时都需要新建连接不必要,只需每个partition取一个connection
解决: PartitionMap
3. 数据倾斜
解决: key取reverse或aggregation
4. worker倾斜
解决: spark.speculation=true kill掉straggle node
5. 序列化 collect? serialization
解决: collect 实际上是一个添加所有元素到数组的步骤超慢;ObjectOutputStream 是JDK自带的也是超慢;kyro seriralization
0 0
- Spark优化
- spark优化
- spark优化
- spark 优化
- Spark 优化
- spark优化
- Spark优化-优化原则
- Spark优化-优化数据结构
- 【Spark系列3】Spark优化
- [spark优化]如何优化数据结构
- Spark+Cassandra优化
- spark join broadcast优化
- Spark性能优化(1)
- Spark性能优化(1)
- Spark性能优化(2)
- Spark性能优化(3)
- spark配置优化
- Spark作业优化总结
- poj2478 Farey Sequence 欧拉函数性质的简单应用
- 定义自己的错误代码
- Javascript、js 时间日期时间戳转换
- 临时记忆
- java学习---初始化与清理
- spark优化
- 逆元
- HDOJ-2056(Rectangles)
- 混合云
- Mac下Eclipse内置Tomcat端口被占用问题的解决办法
- [LeetCode]292.Nim Game
- 如何搭建struts2框架
- Binutils工具集 解析
- ORACLE SPATIAL介绍