SPARK图计算缓存踩坑记录整理

来源:互联网 发布:天宇水利预算软件 编辑:程序博客网 时间:2024/05/22 00:25

简单写写:

1、spark的cache只能将数据缓存在内存中,当缓存数据过大时,会只缓存部分数据,job UI的fraction cached显示该RDD缓存的百分比。之后复用该RDD时,没缓存的数据还是会重复之前的操作从之前的RDD中计算获得。

2、persist可以选择存储级别,在缓存级别为MEMORY_AND_DISK和DISK_ONLY时,可以缓存下全量数据。

3、用fromEdgeTuples构建图的时候可以指定缓存级别,如果不指定则使用MEMORY_ONLY。

4、在图计算的时候,如果这个图过大,则不会一次完成全部计算。而是将数据分批,每次计算一批并和之前的结果进行归并。如果这个时候缓存级别又是MEMORY_ONLY,且RDD中的数据没有全部缓存下来,那么恭喜,会进行之前的操作去补全数据。。。

5、join操作需要读取全量的数据,如果其中一个比较大的RDD是缓存在disk中的,那么在这一步读出来的时候,往往会发生内存不足的问题导致任务失败。

原创粉丝点击