3.4 Spark RDD Action操作3-聚合-aggregate、fold、reduce
来源:互联网 发布:描述算法的方式 编辑:程序博客网 时间:2024/04/29 16:22
1 aggregate
def aggregate[U](zeroValue: U)(seqOp: (U, T) ⇒ U, combOp: (U, U) ⇒ U)(implicit arg0: ClassTag[U]): U
aggregate用户聚合RDD中的元素,先使用seqOp将RDD中每个分区中的T类型元素聚合成U类型,再使用combOp将之前每个分区聚合后的U类型聚合成U类型,特别注意seqOp和combOp都会使用zeroValue的值,zeroValue的类型为U。
例子:
(1)
var rdd1 = sc.makeRDD(1 to 10,2)rdd1.mapPartitionsWithIndex{ (partIdx,iter) => { var part_map = scala.collection.mutable.Map[String,List[Int]]() while(iter.hasNext){ var part_name = "part_" + partIdx; var elem = iter.next() if(part_map.contains(part_name)) { var elems = part_map(part_name) elems ::= elem part_map(part_name) = elems } else { part_map(part_name) = List[Int]{elem} } } part_map.iterator } }.collectres16: Array[(String, List[Int])] = Array((part_0,List(5, 4, 3, 2, 1)), (part_1,List(10, 9, 8, 7, 6)))##第一个分区中包含5,4,3,2,1##第二个分区中包含10,9,8,7,6scala> rdd1.aggregate(1)( {(x : Int,y : Int) => x + y}, {(a : Int,b : Int) => a + b} )res17: Int = 58结果为什么是58,看下面的计算过程:##先在每个分区中迭代执行 (x : Int,y : Int) => x + y 并且使用zeroValue的值1##即:part_0中 zeroValue+5+4+3+2+1 = 1+5+4+3+2+1 = 16## part_1中 zeroValue+10+9+8+7+6 = 1+10+9+8+7+6 = 41##再将两个分区的结果合并(a : Int,b : Int) => a + b ,并且使用zeroValue的值1##即:zeroValue+part_0+part_1 = 1 + 16 + 41 = 58
(2)
scala> rdd1.aggregate(2)( {(x : Int,y : Int) => x + y}, {(a : Int,b : Int) => a * b} ) res18: Int = 1428##这次zeroValue=2##part_0中 zeroValue+5+4+3+2+1 = 2+5+4+3+2+1 = 17##part_1中 zeroValue+10+9+8+7+6 = 2+10+9+8+7+6 = 42##最后:zeroValue*part_0*part_1 = 2 * 17 * 42 = 1428因此,zeroValue即确定了U的类型,也会对结果产生至关重要的影响,使用时候要特别注意。
(3)
aggregate函数将每个分区里面的元素进行聚合(seqOp),然后用combine函数将每个分区的结果和初始值(zeroValue)进行combine操作。这个函数最终返回的类型不需要和RDD中元素类型一致。scala> def seqOP(a:Int, b:Int) : Int = { val r = a*b println("seqOp: " + a + "\t" + b+"=>"+r) r }seqOP: (a: Int, b: Int)Intscala> def combOp(a:Int, b:Int): Int = { val r= a+b println("combOp: " + a + "\t" + b+"=>"+r) r }combOp: (a: Int, b: Int)Intscala> val z = sc. parallelize ( List (1 ,2 ,3 ,4 ,5 ,6) , 2)z: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[9] at parallelize at <console>:27scala> z. aggregate(3)(seqOP, combOp)combOp: 3 18=>21combOp: 21 360=>381res20: Int = 381计算流程:1、对List(1,2,3,4,5,6)分区,分成(1,2,3)(4,5,6)2、对(1,2,3)执行seqOp方法:3(初始值)*1=>33(上轮计算结果)*2=>66*3=>18 对(4,5,6)执行seqOp方法3(初始值)*4=>1212(上轮计算结果)*5=>6060*6=>3603、对分区结果惊醒combine操作3(初始值)+18(分区结果)=>2121(上轮计算结果)+360(分区结果) =>381注意:1、reduce函数和combine函数必须满足交换律(commutative)和结合律(associative)2、从aggregate 函数的定义可知,combine函数的输出类型必须和输入的类型一致
2 fold
def fold(zeroValue: T)(op: (T, T) ⇒ T): T
fold是aggregate的简化,将aggregate中的seqOp和combOp使用同一个函数op。
例子:
scala> rdd1.fold(1)( (x,y) => x + y )res19: Int = 58##结果同上面使用aggregate的第一个例子一样,即:scala> rdd1.aggregate(1)( {(x,y) => x + y}, {(a,b) => a + b} )res20: Int = 58
3 reduce
def reduce(f: (T, T) ⇒ T): T
根据映射函数f,对RDD中的元素进行二元计算,返回计算结果。
例子:
scala> var rdd1 = sc.makeRDD(1 to 10,2)rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[36] at makeRDD at :21scala> rdd1.reduce(_ + _)res18: Int = 55scala> var rdd2 = sc.makeRDD(Array(("A",0),("A",2),("B",1),("B",2),("C",1)))rdd2: org.apache.spark.rdd.RDD[(String, Int)] = ParallelCollectionRDD[38] at makeRDD at :21scala> rdd2.reduce((x,y) => { (x._1 + y._1,x._2 + y._2) })res21: (String, Int) = (CBBAA,6)
阅读全文
0 0
- 3.4 Spark RDD Action操作3-聚合-aggregate、fold、reduce
- spark RDD算子(九)之基本的Action操作 first, take, collect, count, countByValue, reduce, aggregate, fold,top
- Spark算子:RDD行动Action操作(3)–aggregate、fold、lookup
- Spark算子:RDD行动Action操作(3)–aggregate、fold、lookup
- Spark算子:RDD行动Action操作(3)–aggregate、fold、lookup
- RDD行动Action操作(3)–aggregate、fold、lookup
- SPARK里的reduce(),fold(),以及aggregate()
- Spark算子[11]:reduce、aggregate、fold 详解
- Spark RDD的fold和aggregate为什么是两个API?为什么不是一个foldLeft?
- 【Spark Java API】Action(1)—reduce、aggregate
- Spark算子:RDD行动Action操作(1)–first、count、reduce、collect
- Spark算子:RDD行动Action操作(1)–first、count、reduce、collect
- Spark RDD Actions操作之reduce()
- Spark RDD的fold算子
- RDD之aggregate操作
- 3.4 Spark RDD Action操作1-first、count、lookup、collect
- 3.4 Spark RDD Action操作2-take、top、takeOrdered
- 3.4 Spark RDD Action操作4-countByKey、foreach、foreachPartition、sortBy
- UCC国际洗衣,推动干洗行业复兴
- 取消用户手册?微软新专利想用Cortana来设置新设备
- 美国重拳整治“专利流氓”,苹果、谷歌长舒了一口气
- Servlet学习笔记—绝对路径访问资源
- yii2 require_once加载页面(不需重新刷新) 采购单带抬头
- 3.4 Spark RDD Action操作3-聚合-aggregate、fold、reduce
- 多态
- Tomcat中更改网站根目录和默认页的配置方法
- 李彦宏:要么“Think AI”,要么Say Goodbye!
- 从匿名聊聊被秒杀,谈开放平台与困“兽”之斗
- “烽火”称科通芯城其实是“世纪骗局”?听听双方都是怎么说的
- 270亿美元罚单!Google垄断案未来数月内出结果
- 柯洁:无法感受AI热情,这将是我最后三盘人机大战
- 王小川评AlphaGo 2.0:和1.0原理大不同 更接近于人