spark rdd 源码解析
来源:互联网 发布:魔法盾软件 编辑:程序博客网 时间:2024/05/22 06:43
RDD是个抽象类,定义了诸如map()、reduce()等方法,但实际上继承RDD的派生类一般只要实现两个方法:
- def getPartitions: Array[Partition]
- def compute(thePart: Partition, context: TaskContext): NextIterator[T]
getPartitions()用来告知怎么将input分片;
compute()用来输出每个Partition的所有行(行是我给出的一种不准确的说法,应该是被函数处理的一个单元);
以一个hdfs文件HadoopRDD为例:
它直接将各个split包装成RDD了,再看compute():
它调用reader返回一系列的K,V键值对。
再来看看数据库的JdbcRDD:
它直接将结果集分成numPartitions份。其中很多参数都来自于构造函数:
再看看compute()函数:
这段代码就是一段sql分页查询执行情况(顺便吐槽一下,这段代码写得确实比较渣。。。确定sql里面不会在limit前面出现整形变量?有兴趣的同仁们,赶紧操起MyBatis或者Hibernate去投稿吧!)
以上内容为本人原创,转载请注明博客地址:http://blog.csdn.NET/bluejoe2000/article/details/41415087
以下内容为转载,来自:http://developer.51cto.com/art/201309/410276_1.htm
◆ RDD的特点:
- 它是在集群节点上的不可变的、已分区的集合对象。
- 通过并行转换的方式来创建如(map, filter, join, etc)。
- 失败自动重建。
- 可以控制存储级别(内存、磁盘等)来进行重用。
- 必须是可序列化的。
- 是静态类型的。
◆ RDD的好处
- RDD只能从持久存储或通过Transformations操作产生,相比于分布式共享内存(DSM)可以更高效实现容错,对于丢失部分数据分区只需根据它的lineage就可重新计算出来,而不需要做特定的Checkpoint。
- RDD的不变性,可以实现类Hadoop MapReduce的推测式执行。
- RDD的数据分区特性,可以通过数据的本地性来提高性能,这与Hadoop MapReduce是一样的。
- RDD都是可序列化的,在内存不足时可自动降级为磁盘存储,把RDD存储于磁盘上,这时性能会有大的下降但不会差于现在的MapReduce。
◆ RDD的存储与分区
- 用户可以选择不同的存储级别存储RDD以便重用。
- 当前RDD默认是存储于内存,但当内存不足时,RDD会spill到disk。
- RDD在需要进行分区把数据分布于集群中时会根据每条记录Key进行分区(如Hash 分区),以此保证两个数据集在Join时能高效。
◆ RDD的内部表示
在RDD的内部实现中每个RDD都可以使用5个方面的特性来表示:
- 分区列表(数据块列表)
- 计算每个分片的函数(根据父RDD计算出此RDD)
- 对父RDD的依赖列表
- 对key-value RDD的Partitioner【可选】
- 每个数据分片的预定义地址列表(如HDFS上的数据块的地址)【可选】
◆ RDD的存储级别
RDD根据useDisk、useMemory、deserialized、replication四个参数的组合提供了11种存储级别:
- val NONE = new StorageLevel(false, false, false)
- val DISK_ONLY = new StorageLevel(true, false, false)
- val DISK_ONLY_2 = new StorageLevel(true, false, false, 2)
- val MEMORY_ONLY = new StorageLevel(false, true, true)
- val MEMORY_ONLY_2 = new StorageLevel(false, true, true, 2)
- val MEMORY_ONLY_SER = new StorageLevel(false, true, false)
- val MEMORY_ONLY_SER_2 = new StorageLevel(false, true, false, 2)
- val MEMORY_AND_DISK = new StorageLevel(true, true, true)
- val MEMORY_AND_DISK_2 = new StorageLevel(true, true, true, 2)
- val MEMORY_AND_DISK_SER = new StorageLevel(true, true, false)
- val MEMORY_AND_DISK_SER_2 = new StorageLevel(true, true, false, 2)
◆ RDD定义了各种操作,不同类型的数据由不同的RDD类抽象表示,不同的操作也由RDD进行抽实现。
RDD的生成
◆ RDD有两种创建方式:
1、从Hadoop文件系统(或与Hadoop兼容的其它存储系统)输入(例如HDFS)创建。
2、从父RDD转换得到新RDD。
◆ 下面来看一从Hadoop文件系统生成RDD的方式,如:val file = Spark.textFile("hdfs://...")
,file变量就是RDD(实际是HadoopRDD实例),生成的它的核心代码如下:
- // SparkContext根据文件/目录及可选的分片数创建RDD, 这里我们可以看到Spark与Hadoop MapReduce很像
- // 需要InputFormat, Key、Value的类型,其实Spark使用的Hadoop的InputFormat, Writable类型。
- def textFile(path: String, minSplits: Int = defaultMinSplits): RDD[String] = {
- hadoopFile(path, classOf[TextInputFormat], classOf[LongWritable],
- classOf[Text], minSplits) .map(pair => pair._2.toString) }
- // 根据Hadoop配置,及InputFormat等创建HadoopRDD
- new HadoopRDD(this, conf, inputFormatClass, keyClass, valueClass, minSplits)
◆ 对RDD进行计算时,RDD从HDFS读取数据时与Hadoop MapReduce几乎一样的:
RDD的转换与操作
◆ 对于RDD可以有两种计算方式:转换(返回值还是一个RDD)与操作(返回值不是一个RDD)。
◆ 转换(Transformations) (如:map, filter, groupBy, join等),Transformations操作是Lazy的,也就是说从一个RDD转换生成另一个RDD的操作不是马上执行,Spark在遇到Transformations操作时只会记录需要这样的操作,并不会去执行,需要等到有Actions操作的时候才会真正启动计算过程进行计算。
◆ 操作(Actions) (如:count, collect, save等),Actions操作会返回结果或把RDD数据写到存储系统中。Actions是触发Spark启动计算的动因。
- spark rdd 源码解析
- Spark源码解析:RDD
- Spark源码解析之RDD
- [spark] RDD缓存源码解析
- Spark 源码解析 ----RDD创建与本质
- Spark RDD 源码分析
- Spark RDD源码剖析
- [spark] RDD解析
- spark源码--RDD-pipe方法
- Spark RDD算子源码解读
- spark RDD 源码阅读笔记
- 14.spark RDD深度解析
- spark RDD ,wordcount案例解析
- 51:Spark中的新解析引擎Catalyst源码SQL最终转化为RDD具体实现
- Spark-Sql源码解析之七 Execute: executed Plan -> RDD[Row]
- spark源码阅读笔记RDD(一)RDD的基本概念
- spark源码剖析--RDD创建和本质
- Spark Core源码分析: RDD基础
- 1月英语学习总结
- 洛谷P1094 纪念品分组
- 脱壳后的IAT修复
- tensorflow逻辑回归
- 洛谷 P1514 引水入城
- spark rdd 源码解析
- 51 NOD 1092 回文字符串(DP)
- matlab 保存出来的图片或pdf背景为黑色解决方案,验证
- javascript笔记--(第三章)javascript语法,关键字,保留字
- 【ADB命令第三篇】手机密码(访问权限密码或者锁屏密码等)忘记怎么办?
- String,StringBuffer,StringBuilder
- UVa220 算法竞赛入门经典(第2版)习题4-3 黑白棋 Othello
- MySql优化
- 51 NOD 1094 和为k的连续区间(前缀和)