spark mapPartition方法与map方法的区别
来源:互联网 发布:淘宝客注册步骤 编辑:程序博客网 时间:2024/05/16 05:59
两者的主要区别是调用的粒度不一样:map的输入变换函数是应用于RDD中每个元素,而mapPartitions的输入函数是应用于每个分区。
假设一个rdd有10个元素,分成3个分区。如果使用map方法,map中的输入函数会被调用10次;而使用mapPartitions方法的话,其输入函数会只会被调用3次,每个分区调用1次。
//生成10个元素3个分区的rdd a,元素值为1~10的整数(1 2 3 4 5 6 7 8 9 10),sc为SparkContext对象
val a = sc.parallelize(1 to 10, 3)
//定义两个输入变换函数,它们的作用均是将rdd a中的元素值翻倍
//map的输入函数,其参数e为rdd元素值
def myfuncPerElement(e:Int):Int = {
println("e="+e)
e*2
}
//mapPartitions的输入函数。iter是分区中元素的迭代子,返回类型也要是迭代子
def myfuncPerPartition ( iter : Iterator [Int] ) : Iterator [Int] = {
println("run in partition")
var res = for (e <- iter ) yield e*2
res
}
val b = a.map(myfuncPerElement).collect
val c = a.mapPartitions(myfuncPerPartition).collect
在spark shell中运行上述代码,可看到打印了3次run in partition,打印了10次e=。
从输入函数(myfuncPerElement、myfuncPerPartition)层面来看,map是推模式,数据被推到myfuncPerElement中;mapPartitons是拉模式,myfuncPerPartition通过迭代子从分区中拉数据。
这两个方法的另一个区别是在大数据集情况下的资源初始化开销和批处理处理,如果在myfuncPerPartition和myfuncPerElement中都要初始化一个耗时的资源,然后使用,比如数据库连接。在上面的例子中,myfuncPerPartition只需初始化3个资源(3个分区每个1次),而myfuncPerElement要初始化10次(10个元素每个1次),显然在大数据集情况下(数据集中元素个数远大于分区数),mapPartitons的开销要小很多,也便于进行批处理操作。
mapPartitionsWithIndex和mapPartitons类似,只是其参数多了个分区索引号。
转载:http://wanshi.iteye.com/blog/2183906
- spark mapPartition方法与map方法的区别
- spark mapPartition方法与map方法的区别 以及 join的用法
- spark mapPartition方法与map方法的区别 以及 join的用法
- Map的containsKey()与get()方法区别
- Spark 中 map 与 flatMap 的区别
- Spark 中 map 与 flatMap 的区别
- Spark 中 map 与 flatMap 的区别
- [spark]map 与 flatMap 的区别
- Spark之中map与flatMap的区别
- Spark 中 map 与 flatMap 的区别
- Spark 中map与 flatMap的区别
- Spark 中 map 与 flatMap 的区别
- Spark之中map与flatMap的区别
- Spark 中 map 与 flatMap 的区别
- Spark 中 map 与 flatMap 的区别
- Spark之中map与flatMap的区别
- map flatmap mappartition flatMapToPair四种用法区别
- map flatmap mappartition flatMapToPair四种用法区别
- UITableViewCell的分割线去除多余15px
- Android ORM 框架之 greenDAO
- php设计模式-观察者模式
- 假如时光能够倒流, 我会这么学习Java
- 线性表-约瑟夫问题(数据结构基础 第2周)
- spark mapPartition方法与map方法的区别
- iOS中UIButton的setImage方法和setBackgroundImage方法区别
- 303. Range Sum Query - Immutable
- C++ STL set容器常用用法
- html5新增标签
- SpringMVC Controller 介绍
- SQL queries contain complex joins, subqueries, and some aggregates
- 从ndk的安装到Android的apk增量升级(1)jni的简单应用
- cvc-complex-type.2.4.a: Invalid content was found starting with element 'init-param'.