spark 笔记

来源：互联网发布：数学算法编辑：程序博客网时间：2024/06/05 22:50

初学spark的时候看到各种map mappartition foreach foreachpartition ，感觉会头晕，自己整理一下，以后记不清的时候可以来看下

首先理解partition的概念，一个partition在spark中就是一个rdd的分区，凡是带有partition的方法，都是对分区进行操作，不带的就是对整个rdd操作，一个分区的数据和处理都是在一个executor中完成的，这样就可以给一个分区定义共享变量，而对整个rdd定义共享变量就需要广播变量了，最常见的就是forearchpartition中建立数据库连接，一个partition共享连接，还有重要的一点就是partition中传入的参数是整个partition数据的迭代器。

具体的怎么写，不被绕进去，下面是找的例子

map()

val a = sc.parallelize(1 to 9, 3)val b = a.map(x => x*2)//x => x*2是一个函数，x是传入参数即RDD的每个元素，x*2是返回值a.collect//结果Array[Int] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9)b.collect//结果Array[Int] = Array(2, 4, 6, 8, 10, 12, 14, 16, 18)

mapPartitions

package testimport scala.Iteratorimport org.apache.spark.SparkConfimport org.apache.spark.SparkContextobject TestRdd {  def sumOfEveryPartition(input: Iterator[Int]): Int = {    var total = 0    input.foreach { elem =>      total += elem    }    total  }  def main(args: Array[String]) {    val conf = new SparkConf().setAppName("Spark Rdd Test")    val spark = new SparkContext(conf)    val input = spark.parallelize(List(1, 2, 3, 4, 5, 6), 2)//RDD有6个元素，分成2个partition    val result = input.mapPartitions(      partition => Iterator(sumOfEveryPartition(partition)))//partition是传入的参数，是个list，要求返回也是list，即Iterator(sumOfEveryPartition(partition))    result.collect().foreach {      println(_)//6 15    }    spark.stop()  }}

mapValues(function)
原RDD中的Key保持不变，与新的Value一起组成新的RDD中的元素。因此，该函数只适用于元素为KV对的RDD。

val a = sc.parallelize(List("dog", "tiger", "lion", "cat", "panther", " eagle"), 2)val b = a.map(x => (x.length, x))b.mapValues("x" + _ + "x").collect

//”x” + _ + “x”等同于everyInput =>”x” + everyInput + “x”
//结果
Array(
(3,xdogx),
(5,xtigerx),
(4,xlionx),
(3,xcatx),
(7,xpantherx),
(5,xeaglex)
)

flatMap(function)
与map类似，区别是原RDD中的元素经map处理后只能生成一个元素，而原RDD中的元素经flatmap处理后可生成多个元素

———————————分界线—————————-

foreach与foreachPartition都是在每个partition中对iterator进行操作,
不同的是,foreach是直接在每个partition中直接对iterator执行foreach操作,而传入的function只是在foreach内部使用,
而foreachPartition是在每个partition中把iterator给传入的function,让function自己对iterator进行处理.
也就是说，forearch和foreachPartition的参数不一样，与map和mappartition同理

val list = new ArrayBuffer()Rdd.foreach(record => {  list += record  If (list.size >= 10000) {    list.flush....  }})

Val list = new ArrayBufferrdd.foreachPartition(it => {  It.foreach(r => {List += rIf (list.size > 10000) flush  })  If (list.size > 0) flush})

1 0