分布式数据集的容错性
来源:互联网 发布:亲爱的程序员百度云 编辑:程序博客网 时间:2024/06/05 06:00
一般来说,分布式数据集的容错性有两种方式:
1、数据检查点
2、记录数据的更新
我们面向的是大规模数据分析,数据检查点操作成本很高:需要通过数据中心的网络连接在机器之间复制庞大的数据集,而网络带宽往往比内存带宽低得多,同时还需要消耗更多的存储资源(在内存中复制数据可以减少需要缓存的数据量,而存储到磁盘则会降低应用程序速度)。所以,我们选择记录更新的方式。
但是,如果更新太多,记录更新成本也不低。因此,RDD只支持粗粒度转换,即在大量记录上执行的单个操作。将创建RDD的一系列转换记录下来(即Lineage),以便恢复丢失的分区。
关于粗粒度,详细见 http://blog.csdn.net/onisland/article/details/5823641
0 0
- 分布式数据集的容错性
- RDD论文翻译 --弹性分布式数据集:一种基于内存的集群计算的容错性抽象方法
- Spark RDDs(弹性分布式数据集):为内存中的集群计算设计的容错抽象
- Spark RDDs(弹性分布式数据集):为内存中的集群计算设计的容错抽象
- Spark RDDs(弹性分布式数据集):为内存中的集群计算设计的容错抽象
- Spark RDDs(弹性分布式数据集):为内存中的集群计算设计的容错抽象
- Spark RDDs(弹性分布式数据集):为内存中的集群计算设计的容错抽象
- 弹性分布式数据集:一种对内存集群计算的容错抽象(一)
- 弹性分布式数据集:一种对内存集群计算的容错抽象(二)
- 弹性分布式数据集:一种对内存集群计算的容错抽象(三)
- 分布式系统的容错性(一)——容错性简介
- 分布式-容错性,2PC
- 分布式里数据保证容错性有两种方法.
- weblogic的容错性
- MapReduce的容错性
- Hadoop的容错性
- 分布式系统的容错性(二)——检错和纠错
- 浅谈对于RDD的认识 RDD(Resilient Distributed Datasets)弹性分布式数据集,是在集群应用中分享数据的一种高效,通用,容错的抽象,是Spark提供的最重要的抽象的概念
- Easy 292题 Nim Game
- 架构漫谈(二):认识概念是理解架构的基础
- 【Mybatis】深入浅出MyBatis(6)-分页
- 2、一切都是对象
- GridView && ArrayAdapter && SimpleAdapter && BaseAdapter【Android】
- 分布式数据集的容错性
- Puppet集中配置管理系统
- Leetcode 120. Triangle (Medium) (cpp)
- BestCoder Round #85
- RT3070无线网卡STA模式并使开发板接入Wifi上网
- 关于神经网络权值初始化的讲究
- Java回调机制(CallBack)详解
- Android TouchEvent事件传递机制
- 【Mybatis】深入浅出MyBatis(7)-sql自动生成