Spark Checkpoint读操作代码分析

来源：互联网发布：怎么安装spss13软件编辑：程序博客网时间：2024/05/18 02:59

　《Spark RDD缓存代码分析》
　　《Spark Task序列化代码分析》
　　《Spark分区器HashPartitioner和RangePartitioner代码详解》
　　《Spark Checkpoint读操作代码分析》
　　《Spark Checkpoint写操作代码分析》

　　上次介绍了RDD的Checkpint写过程（《Spark Checkpoint写操作代码分析》），本文将介绍RDD如何读取已经Checkpint的数据。在RDD Checkpint完之后，Checkpint的信息（比如数据存放的目录）都由RDDCheckpointData去管理，所以当下次计算依赖了这个RDD的时候，首先是根据依赖关系判断出当前这个RDD是否被Checkpint了，主要是通过RDD的dependencies决定：

finaldef dependencies:Seq[Dependency[_]]={
  checkpointRDD.map(r=> List(newOneToOneDependency(r))).getOrElse {
    if(dependencies_== null) {
      dependencies_= getDependencies
    }
    dependencies_
  }
}

　　如果RDD被Checkpint了，那么checkpointRDD为Some(CheckpointRDD[T])了，所以依赖的RDD变成了CheckpointRDD。在计算数据的过程中会调用RDD的iterator方法：

finaldef iterator(split:Partition, context:TaskContext):Iterator[T] ={
  if(storageLevel !=StorageLevel.NONE) {
    <spanclass="wp_keywordlink_affiliate"><a href="http://www.iteblog.com/archives/tag/spark"title=""target="_blank"data-original-title="View all posts in Spark">Spark</a></span>Env.get.cacheManager.getOrCompute(this, split, context, storageLevel)
  }else{
    computeOrReadCheckpoint(split, context)
  }
}
 
private[spark]defcomputeOrReadCheckpoint(split:Partition, context:TaskContext):Iterator[T] =
{
   if(isCheckpointed) firstParent[T].iterator(split, context) elsecompute(split, context)
}

　　计算的过程中首先会判断RDD是否被Checkpint了，而RDD Checkpint写之后这个条件肯定是true的。而firstParent已经变成了CheckpointRDD，所以会调用CheckpointRDD的iterator方法，该方法最终会调用ReliableCheckpointRDD的compute方法：

overridedef compute(split:Partition, context:TaskContext):Iterator[T] ={
  valfile =new Path(checkpointPath, ReliableCheckpointRDD.checkpointFileName(split.index))
  ReliableCheckpointRDD.readCheckpointFile(file, broadcastedConf, context)
}

　　在compute方法中会通过ReliableCheckpointRDD的readCheckpointFile方法来从file路径里面读出已经Checkpint的数据，readCheckpointFile的实现如下：

defreadCheckpointFile[T](
    path:Path,
    broadcastedConf:Broadcast[SerializableConfiguration],
    context:TaskContext):Iterator[T] ={
  valenv =<spanclass="wp_keywordlink_affiliate"><a href="http://www.iteblog.com/archives/tag/spark"title=""target="_blank"data-original-title="View all posts in Spark">Spark</a></span>Env.get
  valfs =path.getFileSystem(broadcastedConf.value.value)
  valbufferSize =env.conf.getInt("spark.buffer.size",65536)
  valfileInputStream =fs.open(path, bufferSize)
  valserializer =env.serializer.newInstance()
  valdeserializeStream =serializer.deserializeStream(fileInputStream)
 
  // Register an on-task-completion callback to close the input stream.
  context.addTaskCompletionListener(context=> deserializeStream.close())
 
  deserializeStream.asIterator.asInstanceOf[Iterator[T]]
}

最后数据就回被全部读取出来，整个Checkpint读过程完成了。

转载自过往记忆（http://www.iteblog.com/）

0 0