Rdds基本操作Action

来源:互联网 发布:js plumb 编辑:程序博客网 时间:2024/06/03 08:37

Rdds基本操作Action

action,在RDD上计算出一个结果

把结果返回给driver program或保存在文件系统,count(), save


reduce()

接受一个函数,作用在RDD两个类型相同的元素上返回一个新元素

实现元素累加,计数,和其他类型的聚集操作

val rdd=sc.parallelize(Array(1,2,3,3))

rdd.collect()

Array[Int] = Array(1,2,3,3)

rdd.reduce((x,y)=>x+y)   1+2+3+3

Int = 9


collect

遍历整个RDD,向driver program返回RDD的内容

返回的内容需要单机内存能够容纳下(因为数据要拷贝给driver,测试使用)

大量数据,saveAsTextFile()


take(n):

返回RDD的n个元素(同时尝试访问最少的分区)

返回结果是无序的,测试使用

随机取n个


rdd.take(2)   Array[Int]=Array(1,2)


top():

排序(根据RDD中数据的比较器)

rdd.top(2)   3 3


foreach()

计算RDD中每个元素,但是不返回到本地

不保存数据

可以配合println()友好的打印出数据


原创粉丝点击