Spark groupbykey和cogroup使用示例

来源：互联网发布：高清网络电视机顶盒编辑：程序博客网时间：2024/05/22 15:34

groupByKey
groupByKey([numTasks])是数据分组操作，在一个由（K,V）对组成的数据集上调用，返回一个（K,Seq[V])对的数据集。
val rdd0 = sc.parallelize(Array((1,1), (1,2) , (1,3) , (2,1) , (2,2) , (2,3)), 3)
val rdd1 = rdd0.groupByKey()
rdd1.collect

res0: Array[(Int, Iterable[Int])] = Array((1,ArrayBuffer(1, 2, 3)), (2,ArrayBuffer(1, 2, 3)))

cogroup
cogroup(otherDataset, [numTasks])是将输入数据集(K, V)和另外一个数据集(K, W)进行cogroup，得到一个格式为(K, Seq[V], Seq[W])的数据集。
val rdd2 = rdd0.cogroup(rdd0)
rdd2.collect
res1: Array[(Int, (Iterable[Int], Iterable[Int]))] = Array((1,(ArrayBuffer(1, 2, 3),ArrayBuffer(1, 2, 3))), (2,(ArrayBuffer(1, 2, 3),ArrayBuffer(1, 2, 3))))

阅读全文

0 0

Spark groupbykey和cogroup使用示例
Spark算子[12]：groupByKey、cogroup、join、lookup 源码实例详解
Spark使用小结：Java版的GroupByKey示例
Spark join和cogroup算子
Spark的join与cogroup简单示例
spark RDD算子（七）之键值对分组操作 groupByKey，cogroup
Spark编程之基本的RDD算子之cogroup，groupBy，groupByKey
day17:RDD案例（join、cogroup、reduceByKey、groupByKey, join cogroup
spark【例子】count(distinct 字段) 简易版使用groupByKey和zip
spark【例子】count(distinct 字段) 简易版使用groupByKey和zip
spark【例子】count(distinct 字段) 简易版使用groupByKey和zip
Spark函数：cogroup
spark cogroup操作
Spark函数讲解：cogroup
spark函数讲解：cogroup
spark算子cogroup讲解
spark--transform算子--cogroup
在Spark中尽量少使用GroupByKey函数
ubuntu14.04 + opencv2.4.13 + python2.7 配置
base64图片编解码网站
Volley 源码解析
R语言学习
数据库连接池的理解和使用
Spark groupbykey和cogroup使用示例
Java ArrayList的实现原理详解
【经验随笔】Java程序远程调试定位特定运行环境上出现的问题
jquery 内容改变时触发事件 jquery 内容改变时触发事件
[IOS APP]天行者－经典有声文学
grails语法之createCriteria（查询）
论文查重参考文献算不算？
ubuntu14.04中php模块mcrypt无法正常启用怎么办
CI 持续集成： Jenkins + Maven + Tomcat+ Jacoco