Spark groupbykey和cogroup使用示例
来源:互联网 发布:高清网络电视机顶盒 编辑:程序博客网 时间:2024/05/22 15:34
groupByKey
groupByKey([numTasks])是数据分组操作,在一个由(K,V)对组成的数据集上调用,返回一个(K,Seq[V])对的数据集。
val rdd0 = sc.parallelize(Array((1,1), (1,2) , (1,3) , (2,1) , (2,2) , (2,3)), 3)
val rdd1 = rdd0.groupByKey()
rdd1.collect
groupByKey([numTasks])是数据分组操作,在一个由(K,V)对组成的数据集上调用,返回一个(K,Seq[V])对的数据集。
val rdd0 = sc.parallelize(Array((1,1), (1,2) , (1,3) , (2,1) , (2,2) , (2,3)), 3)
val rdd1 = rdd0.groupByKey()
rdd1.collect
res0: Array[(Int, Iterable[Int])] = Array((1,ArrayBuffer(1, 2, 3)), (2,ArrayBuffer(1, 2, 3)))
cogroup
cogroup(otherDataset, [numTasks])是将输入数据集(K, V)和另外一个数据集(K, W)进行cogroup,得到一个格式为(K, Seq[V], Seq[W])的数据集。
val rdd2 = rdd0.cogroup(rdd0)
rdd2.collect
res1: Array[(Int, (Iterable[Int], Iterable[Int]))] = Array((1,(ArrayBuffer(1, 2, 3),ArrayBuffer(1, 2, 3))), (2,(ArrayBuffer(1, 2, 3),ArrayBuffer(1, 2, 3))))
阅读全文
0 0
- Spark groupbykey和cogroup使用示例
- Spark算子[12]:groupByKey、cogroup、join、lookup 源码实例详解
- Spark使用小结:Java版的GroupByKey示例
- Spark join和cogroup算子
- Spark的join与cogroup简单示例
- spark RDD算子(七)之键值对分组操作 groupByKey,cogroup
- Spark编程之基本的RDD算子之cogroup,groupBy,groupByKey
- day17:RDD案例(join、cogroup、reduceByKey、groupByKey, join cogroup
- spark【例子】count(distinct 字段) 简易版 使用groupByKey和zip
- spark【例子】count(distinct 字段) 简易版 使用groupByKey和zip
- spark【例子】count(distinct 字段) 简易版 使用groupByKey和zip
- Spark函数:cogroup
- spark cogroup操作
- Spark函数讲解:cogroup
- spark函数讲解:cogroup
- spark算子cogroup讲解
- spark--transform算子--cogroup
- 在Spark中尽量少使用GroupByKey函数
- ubuntu14.04 + opencv2.4.13 + python2.7 配置
- base64图片编解码网站
- Volley 源码解析
- R语言学习
- 数据库连接池的理解和使用
- Spark groupbykey和cogroup使用示例
- Java ArrayList的实现原理详解
- 【经验随笔】Java程序远程调试定位特定运行环境上出现的问题
- jquery 内容改变时触发事件 jquery 内容改变时触发事件
- [IOS APP]天行者-经典有声文学
- grails语法之createCriteria(查询)
- 论文查重参考文献算不算?
- ubuntu14.04中php模块mcrypt无法正常启用怎么办
- CI 持续集成: Jenkins + Maven + Tomcat+ Jacoco