RDD Action 显示

来源:互联网 发布:今日头条淘宝推广 编辑:程序博客网 时间:2024/06/06 01:09
RDD Action 显示
val nums  = sc.parallelize(List(1,2,3,6,4,7,5))
nums.collect   //会引起客户端内存溢出


//返回前k 个元素
nums.take(2)


//返回排序后的前k 个元素
nums.takeOrdered(2)


//返回第一个元素
nums.first


//返回随机k个元素
nums.takeSample(true,2) //不替换
nums.takeSample(false,2) //替换


nums.foreach(println)


//合并集合元素
nums(_+_)


key/value 返回一个hashmap 记录每一个key有多少个value
val a = sc.parallelize(List(("spark",1),("hadoop",1),("storm",1),("storm",1)))
a.countByKey


//将RDD保存到HDFS中
nums.saveAsTextFile("/aa")


val a = sc.parallelize(List(("spark",1),("hadoop",1),("storm",1),("storm",1)))
a.countByKey
res21: scala.collection.Map[String,Long] = Map(spark -> 1, hadoop -> 1, storm -> 2)
0 0