spark的checkpoint

来源：互联网发布：网络终端机改造编辑：程序博客网时间：2024/05/18 00:35

/**
* Mark this RDD for checkpointing. It will be saved to a file inside the checkpoint
* directory set with `SparkContext#setCheckpointDir` and all references to its parent
* RDDs will be removed. This function must be called before any job has been
* executed on this RDD. It is strongly recommended that this RDD is persisted in
* memory, otherwise saving it on a file will require recomputation.

这是源码中RDD里的checkpoint()方法的注释，里面建议在执行checkpoint()方法之前先对rdd进行persisted操作。

为啥要这样呢？因为checkpoint会触发一个Job,如果执行checkpoint的rdd是由其他rdd经过许多计算转换过来的，如果你没有persisted这个rdd，那么又要重头开始计算该rdd，也就是做了重复的计算工作了，所以建议先persist rdd然后再checkpoint，checkpoint会丢弃该rdd的以前的依赖关系，使该rdd成为顶层父rdd，这样在失败的时候恢复只需要恢复该rdd,而不需要重新计算该rdd了，这在迭代计算中是很有用的，假设你在迭代1000次的计算中在第999次失败了，然后你没有checkpoint，你只能重新开始恢复了，如果恰好你在第998次迭代的时候你做了一个checkpoint，那么你只需要恢复第998次产生的rdd,然后再执行2次迭代完成总共1000的迭代，这样效率就很高，比较适用于迭代计算非常复杂的情况，也就是恢复计算代价非常高的情况，适当进行checkpoint会有很大的好处。

0 0