SPARK图计算缓存踩坑记录整理

来源：互联网发布：天宇水利预算软件编辑：程序博客网时间：2024/05/22 00:25

简单写写：

1、spark的cache只能将数据缓存在内存中，当缓存数据过大时，会只缓存部分数据，job UI的fraction cached显示该RDD缓存的百分比。之后复用该RDD时，没缓存的数据还是会重复之前的操作从之前的RDD中计算获得。

2、persist可以选择存储级别，在缓存级别为MEMORY_AND_DISK和DISK_ONLY时，可以缓存下全量数据。

3、用fromEdgeTuples构建图的时候可以指定缓存级别，如果不指定则使用MEMORY_ONLY。

4、在图计算的时候，如果这个图过大，则不会一次完成全部计算。而是将数据分批，每次计算一批并和之前的结果进行归并。如果这个时候缓存级别又是MEMORY_ONLY，且RDD中的数据没有全部缓存下来，那么恭喜，会进行之前的操作去补全数据。。。

5、join操作需要读取全量的数据，如果其中一个比较大的RDD是缓存在disk中的，那么在这一步读出来的时候，往往会发生内存不足的问题导致任务失败。

阅读全文

0 0