checkpoint彻底解密
来源:互联网 发布:多线程编程java面试题 编辑:程序博客网 时间:2024/06/12 20:41
一:Checkpoint到底是什么?
1, Spark在生产环境下经常会面临Tranformations的RDD非常多(例如一个Job中包含1万个RDD)或者具体Tranformation产生的RDD本身计算特别复杂和耗时(例如计算时常超过1个小时),此时我们必须考虑对计算结果数据的持久化;
2, Spark是擅长多步骤迭代,同时擅长基于Job的复用,这个时候如果能够对曾经计算的过程产生的数据进行复用,就可以极大的提升效率;
3, 如果采用persist把数据放在内存中的话,虽然是最快速的但是也是最不可靠的;如果放在磁盘上也不是完全可靠的!例如磁盘会损坏,管理员可能清空磁盘等
4, Checkpoint的产生就是为了相对而言更加可靠的持久化数据,在Checkpoint可以指定把数据放在本地并且是多副本的方式,但是在正常的生产环境下是放在HDFS,这就天然的借助了HDFS高容错的高可靠的特征来完成了最大化的可靠的持久化数据的方式;
5, Checkpoint是为了最大程度保证绝度可靠的复用RDD计算数据的Spark的高级功能,通过Checkpoint我们通过把数据持久化的HDFS来保证数据最大程度的安全性;
6, Checkpoint就是针对整个RDD计算链条中特别需要数据持久化的环节(后面会反复使用当前环节的RDD)开始基于HDFS等的数据持久化复用策略,通过对RDD启动checkpoint机制来实现容错和高可用;
二:Checkpoint原理机制
1, 通过调用SparkContext.setCheckpointDir方法来指定进行Checkpoint操作的RDD把数据放在哪里,在生产集群中是放在HDFS上的,同时为了提高效率在进行checkpoint的使用可以指定很多目录
/**
* Set the directory under which RDDs are going to be checkpointed. The directory must
* be a HDFS path if running on a cluster.
*/
def setCheckpointDir(directory:String) {
// If we are running on a cluster, log a warning if the directory is local.
// Otherwise, the driver may attempt to reconstruct the checkpointed RDD from
// its own local file system, which is incorrect because the checkpoint files
// are actually on the executor machines.
if(!isLocal && Utils.nonLocalPaths(directory).isEmpty) {
logWarning("Checkpoint directory must be non-local "+
"if Spark is running on a cluster: "+ directory)
}
checkpointDir= Option(directory).map { dir =>
valpath = newPath(dir,UUID.randomUUID().toString)
valfs = path.getFileSystem(hadoopConfiguration)
fs.mkdirs(path)
fs.getFileStatus(path).getPath.toString
}
}
2, 在进行RDD的checkpoint的时候其所依赖的所有的RDD都会从计算链条中清空掉;
3, 作为最佳实践,一般在进行checkpoint方法调用前通过都要进行persist来把当前RDD的数据持久化到内存或者磁盘上,这是因为checkpoint是Lazy级别,必须有Job的执行且在Job执行完成后才会从后往前回溯哪个RDD进行了Checkpoint标记,然后对该标记了要进行Checkpoint的RDD新启动一个Job执行具体的Checkpoint的过程;
4, Checkpoint改变了RDD的Lineage;
5, 当我们调用了checkpoint方法要对RDD进行Checkpoint操作的话,此时框架会自动生成RDDCheckpointData,当RDD上运行过一个Job后就会立即触发RDDCheckpointData中的checkpoint方法,在其内部会调用doCheckpoint,实际上在生产环境下会调用ReliableRDDCheckpointData的doCheckpoint,在生产环境下会导致ReliableCheckpointRDD的writeRDDToCheckpointDirectory的调用,而在writeRDDToCheckpointDirectory方法内部会触发runJob来执行把当前的RDD中的数据写到Checkpoint的目录中,同时会产生ReliableCheckpointRDD实例;
- checkpoint彻底解密
- 第41课:Checkpoint彻底解密:Checkpoint的运行原理和源码实现彻底详解
- 42:Spark Streaming中checkpoint内幕实现彻底解密
- 大数据IMF传奇行动绝密课程第41课:Checkpoint彻底解密
- 第42课:Spark Streaming中checkpoint内幕实现彻底解密(源代码提问:checkpoint源代码修改,适用场景:spark的版本升级,数据恢复。。)
- RDD创建彻底解密
- Master HA彻底解密
- cacheManager彻底解密
- Spark EXecutor彻底解密
- checkpoint
- CheckPoint
- checkpoint
- CheckPoint
- checkpoint
- Checkpoint
- checkpoint
- Checkpoint
- checkpoint
- 文本特征提取_03:基于词频数的文档向量CountVectorizer
- centos 7 卸载 mariadb 的正确命令
- FastJson--阿里巴巴公司开源的速度最快的Json和对象转换工具
- MVC(四、布局)
- spring boot集成mybatis无法扫描mapper文件(坑)
- checkpoint彻底解密
- 程序员需要具备的基本技能
- spring task
- CSS3 Boxshadow
- 7.5.1
- 蹲下来是为了跳得更高-2016 天猫技术这一年
- bzoj3512: DZY Loves Math IV
- Spring MVC 解决跨域问题&以及对@RequestBody的理解
- SAPUI5 (16) - 数据类型