spark 笔记
来源:互联网 发布:数学算法 编辑:程序博客网 时间:2024/06/05 22:50
初学spark的时候看到各种map mappartition foreach foreachpartition ,感觉会头晕,自己整理一下,以后记不清的时候可以来看下
首先理解partition的概念,一个partition在spark中就是一个rdd的分区,凡是带有partition的方法,都是对分区进行操作,不带的就是对整个rdd操作,一个分区的数据和处理都是在一个executor中完成的,这样就可以给一个分区 定义共享变量,而对整个rdd定义共享变量就需要广播变量了,最常见的就是forearchpartition中建立数据库连接,一个partition共享连接,还有重要的一点就是partition中传入的参数是整个partition数据的迭代器。
具体的怎么写,不被绕进去,下面是找的例子
map()
val a = sc.parallelize(1 to 9, 3)val b = a.map(x => x*2)//x => x*2是一个函数,x是传入参数即RDD的每个元素,x*2是返回值a.collect//结果Array[Int] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9)b.collect//结果Array[Int] = Array(2, 4, 6, 8, 10, 12, 14, 16, 18)
mapPartitions
package testimport scala.Iteratorimport org.apache.spark.SparkConfimport org.apache.spark.SparkContextobject TestRdd { def sumOfEveryPartition(input: Iterator[Int]): Int = { var total = 0 input.foreach { elem => total += elem } total } def main(args: Array[String]) { val conf = new SparkConf().setAppName("Spark Rdd Test") val spark = new SparkContext(conf) val input = spark.parallelize(List(1, 2, 3, 4, 5, 6), 2)//RDD有6个元素,分成2个partition val result = input.mapPartitions( partition => Iterator(sumOfEveryPartition(partition)))//partition是传入的参数,是个list,要求返回也是list,即Iterator(sumOfEveryPartition(partition)) result.collect().foreach { println(_)//6 15 } spark.stop() }}
mapValues(function)
原RDD中的Key保持不变,与新的Value一起组成新的RDD中的元素。因此,该函数只适用于元素为KV对的RDD。
val a = sc.parallelize(List("dog", "tiger", "lion", "cat", "panther", " eagle"), 2)val b = a.map(x => (x.length, x))b.mapValues("x" + _ + "x").collect
//”x” + _ + “x”等同于everyInput =>”x” + everyInput + “x”
//结果
Array(
(3,xdogx),
(5,xtigerx),
(4,xlionx),
(3,xcatx),
(7,xpantherx),
(5,xeaglex)
)
flatMap(function)
与map类似,区别是原RDD中的元素经map处理后只能生成一个元素,而原RDD中的元素经flatmap处理后可生成多个元素
———————————分界线—————————-
foreach与foreachPartition都是在每个partition中对iterator进行操作,
不同的是,foreach是直接在每个partition中直接对iterator执行foreach操作,而传入的function只是在foreach内部使用,
而foreachPartition是在每个partition中把iterator给传入的function,让function自己对iterator进行处理.
也就是说,forearch和foreachPartition的参数不一样,与map和mappartition同理
val list = new ArrayBuffer()Rdd.foreach(record => { list += record If (list.size >= 10000) { list.flush.... }})
Val list = new ArrayBufferrdd.foreachPartition(it => { It.foreach(r => {List += rIf (list.size > 10000) flush }) If (list.size > 0) flush})
- Spark笔记
- spark笔记
- Spark笔记
- spark笔记
- spark 笔记
- SPARK笔记
- Spark笔记
- spark笔记
- Spark笔记
- spark笔记
- spark笔记
- spark学习笔记:Spark Streaming
- Spark学习笔记:初识Spark
- Spark学习笔记--Spark基础知识
- spark学习笔记:初识spark
- Spark 学习笔记
- Spark学习笔记
- Spark学习笔记
- Google开源JPEG压缩算法--Guetzli体验
- Windows 网络编程基于TCP协议的Socket通信
- Testflight上的版本更新
- 整数用pow要小心啊。。
- 认识和修改在Linux中stat命令下出现的Access,Modify,Change三类时间
- spark 笔记
- CodeForces 598A Tricky Sum
- 继承:避免遮掩继承而来的名称
- 2015年普级组模拟试题 序列
- java实现指定格式(如3.1.1)两个版本号比较
- C++ MD5实现
- Android平台上优秀的开源项目
- 社交软件广告消息多的危害
- 汇编小结