Spark中mapPartitions使用
来源:互联网 发布:淘宝做代理有风险吗 编辑:程序博客网 时间:2024/06/14 00:21
转:http://blog.csdn.net/lsshlsw/article/details/48627737
与map方法类似,map是对rdd中的每一个元素进行操作,而mapPartitions(foreachPartition)则是对rdd中的每个分区的迭代器进行操作。如果在map过程中需要频繁创建额外的对象(例如将rdd中的数据通过jdbc写入数据库,map需要为每个元素创建一个链接而mapPartition为每个partition创建一个链接),则mapPartitions效率比map高的多。
SparkSql或DataFrame默认会对程序进行mapPartition的优化。
Demo
实现将每个数字变成原来的2倍的功能
比如:输入2,结果(2,4)
使用map
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 1
- 2
- 3
- 4
- 5
- 6
- 7
结果
(1,2)(2,4)(3,6)(4,8)(5,10)(6,12)(7,14)(8,16)(9,18)
使用mapPartitions
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
结果
(3,6)(2,4)(1,2)(6,12)(5,10)(4,8)(9,18)(8,16)(7,14)
阅读全文
0 0
- Spark中mapPartitions使用
- Spark中foreachPartition和mapPartitions的区别
- Spark RDD中Transformation的map、flatMap、mapPartitions、glom详解
- spark中mapPartitions双重循环或两次遍历(duplicate)
- spark:map mapPartitions flatmap
- Spark mapPartitions()操作
- spark:map mapPartitions flatmap
- Spark中的mapPartitions
- spark--transform算子--mapPartitions
- spark小技巧-mapPartitions
- Spark Transformation —— mapPartitions
- Spark API 之 map、mapPartitions
- 通过代码实例来说明spark api mapPartitions和mapPartitionsWithIndex的使用
- 通过代码实例来说明spark api mapPartitions和mapPartitionsWithIndex的使用
- mapPartitions
- spark map和mapPartitions的区别
- spark学习-19-Spark的mapPartitions与MapPartitionsWithIndex理解
- spark map flatMap flatMapToPair mapPartitions 的区别和用途
- java.sql.SQLException: 不允许的操作: operation cannot be mixed with Oracle-style batching 解决方案
- Windows进程通信——匿名管道
- 关于java.sql.SQLException: Access denied for user 'root'@'localhost' (using password: YES)问题解决
- 神经网络优化算法如何选择Adam,SGD
- 清除浏览器缓存js文件的几种方法
- Spark中mapPartitions使用
- 习题29
- SSM组合+ springmvc+mybatis+shiro+restful+bootstrap
- 基于webpack的前端工程化开发之多页站点篇(一)
- 要将大数据和分析转变为竞争优势,实现业务转型,必须做到这三点!
- UIViewContentMode各类型效果
- Java还要再学一遍基础(九)HashMap原理
- Android
- 对比Ruby和Python的垃圾回收(2)