SPARK图计算缓存踩坑记录整理
来源:互联网 发布:天宇水利预算软件 编辑:程序博客网 时间:2024/05/22 00:25
简单写写:
1、spark的cache只能将数据缓存在内存中,当缓存数据过大时,会只缓存部分数据,job UI的fraction cached显示该RDD缓存的百分比。之后复用该RDD时,没缓存的数据还是会重复之前的操作从之前的RDD中计算获得。
2、persist可以选择存储级别,在缓存级别为MEMORY_AND_DISK和DISK_ONLY时,可以缓存下全量数据。
3、用fromEdgeTuples构建图的时候可以指定缓存级别,如果不指定则使用MEMORY_ONLY。
4、在图计算的时候,如果这个图过大,则不会一次完成全部计算。而是将数据分批,每次计算一批并和之前的结果进行归并。如果这个时候缓存级别又是MEMORY_ONLY,且RDD中的数据没有全部缓存下来,那么恭喜,会进行之前的操作去补全数据。。。
5、join操作需要读取全量的数据,如果其中一个比较大的RDD是缓存在disk中的,那么在这一步读出来的时候,往往会发生内存不足的问题导致任务失败。
阅读全文
0 0
- SPARK图计算缓存踩坑记录整理
- Spark 踩坑记录
- 云计算 hadoop spark学习资料整理 百度网盘
- Spark Streaming 流计算优化记录(1)-背景介绍
- Spark Streaming 流计算优化记录(1)-背景介绍
- Spark图计算(一)
- Spark图计算(二)
- ajsx的收集整理和记录--缓存问题
- 【spark】spark计算Pi
- Spark记录
- spark记录
- 计算缓存
- spark组件之graphx图并行计算
- Spark图计算GraphX介绍及实例
- spark graphx 图计算demo,结果展现
- spark graphx图计算常用操作实战
- Spark图计算GraphX介绍及实例
- Spark图计算GraphX介绍及实例
- Hdu4135 Co-prime
- SSL 1333_地鼠的困境_匹配
- 阿里云Nginx服务器配置301重定向
- saas平台产品使用合同(模板)
- PCL中读取pcd点云数据的两种方法
- SPARK图计算缓存踩坑记录整理
- linux系统编程之信号(六):信号发送函数sigqueue和信号安装函数sigaction
- 浅谈:Java静态变量
- MySQL安装操作
- 面试题 8: 旋转数组的最小数字
- linux系统编程之信号(七):被信号中断的系统调用和库函数处理方式
- 经典算法面试题系列(三)——不使用系统函数排序数组
- HDU 2896 病毒侵袭 (AC自动机数组型模板)
- Bing Maps——必应地图