mapPartition
来源:互联网 发布:sqlserver 查询合计 编辑:程序博客网 时间:2024/06/05 09:45
两者的主要区别是调用的粒度不一样:map的输入变换函数是应用于RDD中每个元素,而mapPartitions的输入函数是应用于每个分区。
假设一个rdd有10个元素,分成3个分区。如果使用map方法,map中的输入函数会被调用10次;而使用mapPartitions方法的话,其输入函数会只会被调用3次,每个分区调用1次。
//生成10个元素3个分区的rdd a,元素值为1~10的整数(1 2 3 4 5 6 7 8 9 10),sc为SparkContext对象
val a = sc.parallelize(1 to 10, 3)
//定义两个输入变换函数,它们的作用均是将rdd a中的元素值翻倍
//map的输入函数,其参数e为rdd元素值
def myfuncPerElement(e:Int):Int = {
println("e="+e)
e*2
}
//mapPartitions的输入函数。iter是分区中元素的迭代子,返回类型也要是迭代子
def myfuncPerPartition ( iter : Iterator [Int] ) : Iterator [Int] = {
println("run in partition")
var res = for (e <- iter ) yield e*2
res
}
val b = a.map(myfuncPerElement).collect
val c = a.mapPartitions(myfuncPerPartition).collect
在Spark shell中运行上述代码,可看到打印了3次run in partition,打印了10次e=。
从输入函数(myfuncPerElement、myfuncPerPartition)层面来看,map是推模式,数据被推到myfuncPerElement中;mapPartitons是拉模式,myfuncPerPartition通过迭代子从分区中拉数据。
这两个方法的另一个区别是在大数据集情况下的资源初始化开销和批处理处理,如果在myfuncPerPartition和myfuncPerElement中都要初始化一个耗时的资源,然后使用,比如数据库连接。在上面的例子中,myfuncPerPartition只需初始化3个资源(3个分区每个1次),而myfuncPerElement要初始化10次(10个元素每个1次),显然在大数据集情况下(数据集中元素个数远大于分区数),mapPartitons的开销要小很多,也便于进行批处理操作。
mapPartitionsWithIndex和mapPartitons类似,只是其参数多了个分区索引号。
- mapPartition
- MapPartition一次oom问题解决
- spark mapPartition方法与map方法的区别
- map flatmap mappartition flatMapToPair四种用法区别
- map flatmap mappartition flatMapToPair四种用法区别
- spark mapPartition方法与map方法的区别 以及 join的用法
- spark点滴之map-flatMap~mappartition~sortBY~fold~combinebykey~分区~mvn~scala
- spark mapPartition方法与map方法的区别 以及 join的用法
- SparkStreaming读取kafka数据进行反序列化以及mapPartition优化实例
- 编码算法之指数哥伦布编码
- C++为何那么复杂?
- spring_spring范围开始@PostConstruct、与结束注解@PreDestroy
- Android中综合使用AsyncHttpClient和SmartImageView编写新闻客户端的案例
- Qt 编译报错 error: invalid use of incomplete type 'class QXxx'
- mapPartition
- SecureCRT中设置背景色和文字颜色
- sklearn之训练数据和测试数据随机选取
- Cadence 17.2 Pad Editor入门指南(2)
- Windows 下SQLite3的安装与使用
- ajax笔记03 异步同步请求
- 指针*p与地址之间的关系
- JavaWeb静态资源分离思路
- BZOJ1687: [Usaco2005 Open]Navigating the City 城市交通