分布式数据集的容错性

来源:互联网 发布:亲爱的程序员百度云 编辑:程序博客网 时间:2024/06/05 06:00

一般来说,分布式数据集的容错性有两种方式:

  1、数据检查点

  2、记录数据的更新

  我们面向的是大规模数据分析,数据检查点操作成本很高:需要通过数据中心的网络连接在机器之间复制庞大的数据集,而网络带宽往往比内存带宽低得多,同时还需要消耗更多的存储资源(在内存中复制数据可以减少需要缓存的数据量,而存储到磁盘则会降低应用程序速度)。所以,我们选择记录更新的方式。

     但是,如果更新太多,记录更新成本也不低。因此,RDD只支持粗粒度转换,即在大量记录上执行的单个操作。将创建RDD的一系列转换记录下来(即Lineage),以便恢复丢失的分区。

  关于粗粒度,详细见 http://blog.csdn.net/onisland/article/details/5823641

0 0