Spark API 之 reduce、reduceByKey 、 mapvalues

来源:互联网 发布:淘宝论坛taoxiaobai 编辑:程序博客网 时间:2024/06/05 20:13

转:http://blog.csdn.net/guotong1988/article/details/50555185

reduce(binary_function) 
reduce将RDD中元素前两个传给输入函数,产生一个新的return值,新产生的return值与RDD中下一个元素(第三个元素)组成两个元素,再被传给输入函数,直到最后只有一个值为止。

val c = sc.parallelize(1 to 10)c.reduce((x, y) => x + y)//结果55
  • 1
  • 2
  • 1
  • 2

具体过程,RDD有1 2 3 4 5 6 7 8 9 10个元素, 
1+2=3 
3+3=6 
6+4=10 
10+5=15 
15+6=21 
21+7=28 
28+8=36 
36+9=45 
45+10=55


reduceByKey(binary_function) 
reduceByKey就是对元素为KV对的RDD中Key相同的元素的Value进行binary_function的reduce操作,因此,Key相同的多个元素的值被reduce为一个值,然后与原RDD中的Key组成一个新的KV对。

val a = sc.parallelize(List((1,2),(1,3),(3,4),(3,6)))a.reduceByKey((x,y) => x + y).collect
  • 1
  • 2
  • 1
  • 2

//结果 Array((1,5), (3,10))

mapValues(function) 
原RDD中的Key保持不变,与新的Value一起组成新的RDD中的元素。因此,该函数只适用于元素为KV对的RDD。

val a = sc.parallelize(List("dog", "tiger", "lion", "cat", "panther", " eagle"), 2)val b = a.map(x => (x.length, x))b.mapValues("x" + _ + "x").collect
  • 1
  • 2
  • 3
  • 1
  • 2
  • 3

//"x" + _ + "x"等同于everyInput =>"x" + everyInput + "x" 
//结果 
Array( 
(3,xdogx), 
(5,xtigerx), 
(4,xlionx), 
(3,xcatx), 
(7,xpantherx), 
(5,xeaglex) 
)


阅读全文
0 0
原创粉丝点击