spark的性能优化的方式
来源:互联网 发布:个人可以开淘宝网店吗 编辑:程序博客网 时间:2024/05/21 07:49
- spark提供了两种序列化机制,Java的序列化和kryo序列化,使用kryo序列化占用更小的内存,但是kryo的缺点是:不是所有都能序列化,而且需要注册
- 优化数据结构,比如优先使用数组和字符串,而不是集合
- 对多次使用的rdd进行持久化和checkpoint()
- Java虚拟机的垃圾回收机制的调优,主要是调节新生代和老年代的大小和比例,通过配置参数来进行调节
- 提高并行度 spark.default.parallism=60 建议是总cpu的数量*2到3倍,也可以在比如使用reduceByKey的时候在填上参数,该参数就是几个reduce任务并行执行,如:reduceByKey(5)
- 使用广播变量,占用更少的资源 sc.broadcast(xxx)
- 数据本地化 process_local ….
- shuffle调优,最重要的,比如开启consolidateFile机制,文件缓存的大小,抓取的大小等等。
阅读全文
0 0
- spark的性能优化的方式
- spark的性能优化
- Spark性能优化——性能优化的重要性
- jQuery性能优化的方式
- 前端性能优化的方式
- JAVA性能优化的五种方式
- UITableView性能优化的几种方式
- Spark性能优化的10大问题及其解决方案
- 讨论Spark的配置监控和性能优化
- Spark性能优化的10大问题及其解决方案
- Spark性能优化的10大问题及其解决方案
- Spark性能优化的10大问题及其解决方案
- 总结:Spark性能优化上的一些总结
- Spark性能优化——内存的消耗
- Spark性能调优之代码方面的优化
- 网站性能优化时Cookie常用的优化方式
- android性能优化(一些常用的优化方式)
- spark的性能测试
- boost库文档地址
- HDU
- 七牛云-上传策略之数据处理
- WebService快速入门
- google-gperftools分析代码时间分布
- spark的性能优化的方式
- 小白学tkinter(Menu组件(菜单))
- 构建微服务:Spring boot 入门篇
- 《Linux命令行大全》学习笔记(一)
- 学生成绩管理系统
- 直接插入排序和希尔排序
- 第二章 身份验证 (二) 身份认证流程
- 数据库(第一范式,第二范式,第三范式)
- javascript中常用坐标属性offset、scroll、client