第142课:Spark面试经典系列之Cache和Checkpoint

来源:互联网 发布:下载skype软件 编辑:程序博客网 时间:2024/06/06 00:12

Spark面试经典系列之Cache和Checkpoint

1、Cache
2、Checkpoint

Cache:当我们想复用数据的时候一般都会进行Cache,在实际生产环境下复用RDD是最重要的性能优化手段之一(当然,如果能够实现优良的RDD的复用,一定是建立在同时驾驭业务和技术的基础之上的)。所谓的Cache其实是把数据经过第一次计算放在了BlockManager中。

Checkpoint:相当于Cache的备胎,Checkpoint的数据会放在容错的文件系统中,进行Checkpoint的RDD一般都会首先进行Cache来避免数据的重复计算

图142-1 Cache和Checkpoint

0 0