spark小技巧-mapPartitions
来源:互联网 发布:空地导弹 知乎 编辑:程序博客网 时间:2024/05/17 07:14
与map方法类似,map是对rdd中的每一个元素进行操作,而mapPartitions(foreachPartition)则是对rdd中的每个分区的迭代器进行操作。如果在map过程中需要频繁创建额外的对象(例如将rdd中的数据通过jdbc写入数据库,map需要为每个元素创建一个链接而mapPartition为每个partition创建一个链接),则mapPartitions效率比map高的多。
SparkSql或DataFrame默认会对程序进行mapPartition的优化。
Demo
实现将每个数字变成原来的2倍的功能
比如:输入2,结果(2,4)
使用map
val a = sc.parallelize(1 to 9, 3)def mapDoubleFunc(a : Int) : (Int,Int) = { (a,a*2)}val mapResult = a.map(mapDoubleFunc)println(mapResult.collect().mkString)
结果
(1,2)(2,4)(3,6)(4,8)(5,10)(6,12)(7,14)(8,16)(9,18)
使用mapPartitions
val a = sc.parallelize(1 to 9, 3) def doubleFunc(iter: Iterator[Int]) : Iterator[(Int,Int)] = { var res = List[(Int,Int)]() while (iter.hasNext) { val cur = iter.next; res .::= (cur,cur*2) } res.iterator }val result = a.mapPartitions(doubleFunc)println(result.collect().mkString)
结果
(3,6)(2,4)(1,2)(6,12)(5,10)(4,8)(9,18)(8,16)(7,14)
0 0
- spark小技巧-mapPartitions
- spark:map mapPartitions flatmap
- Spark mapPartitions()操作
- spark:map mapPartitions flatmap
- Spark中的mapPartitions
- Spark中mapPartitions使用
- spark--transform算子--mapPartitions
- Spark Transformation —— mapPartitions
- Spark API 之 map、mapPartitions
- spark 小技巧
- mapPartitions
- spark map和mapPartitions的区别
- Spark中foreachPartition和mapPartitions的区别
- spark学习-19-Spark的mapPartitions与MapPartitionsWithIndex理解
- spark map flatMap flatMapToPair mapPartitions 的区别和用途
- Spark RDD中Transformation的map、flatMap、mapPartitions、glom详解
- Spark算子:RDD基本转换操作(5)–mapPartitions、
- Spark算子:RDD基本转换操作(mapPartitions、mapPartitionsWithIndex)
- shiro配置
- 二叉树的遍历(递归和非递归)
- DOM解析XML
- CAGradientLayer的使用
- 新浪面试题 快速排序非递归实现
- spark小技巧-mapPartitions
- Android-在线查看源码
- 移动端APP产品设计需要考虑哪些因素?
- android 事件总线 -- Otto(一)
- redis主从切换的重订阅
- js中||和&&短路原理,精简代码方法
- 获取ResultSet记录数
- WPF DataGridTemplateColumn 获取内部控件
- v4l2中ioctl的调用流程