程序博客网 > xt800远程控制软件

spark优化

来源：互联网发布：xt800远程控制软件编辑：程序博客网时间：2024/06/05 14:21

1. 多次filter操作后，RDD中partition的数据量会越来越少，当很小接近于空的时候，会损耗性能

解决：利用coalesce 或 repartition(强制shuffle)减少RDD中partition数量

2. 海量记录getConn，每个partition里的每条记录get时都需要新建连接不必要，只需每个partition取一个connection

解决： PartitionMap

3. 数据倾斜

解决： key取reverse或aggregation

4. worker倾斜

解决： spark.speculation=true kill掉straggle node

5. 序列化 collect? serialization

解决： collect 实际上是一个添加所有元素到数组的步骤超慢；ObjectOutputStream 是JDK自带的也是超慢；kyro seriralization

0 0

xt800远程控制软件

xt800远程控制软件

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子蜜植素蜜植素全国统一价图片蜜植素洗发水怎么样蜜植素洗发水植蜜素洗发水价格表植丽素化妆品植丽素面膜怎么样植丽素化妆品价格表陈燕萍植丽素价格表中国农科院植保所植保会山东植保会济南植保会全国植保会植保植保机械全国植保会2019地点植保会2019时间表山东植保会时间2019 2019全国植保会 2019山东植保会沈阳农业大学植保学院 mg-1农业植保机无人植保机植保机大疆mg-1 价格2000元无人植保机植保工作总结假体植入胎盘植入什么意思起搏器植入术起搏器植入术过程图解冠状动脉支架植入术植入性脊椎炎二次植发植发单位我想植发植发费用大概多少植发大概多少费用植发费用植发费用一般要多少