spark算子cogroup讲解
来源:互联网 发布:51单片机课程设计课题 编辑:程序博客网 时间:2024/05/17 08:34
1.cogroup是什么
cogroup定义如下:
defcogroup[W1, W2](other1: RDD[(K, W1)], other2: RDD[(K, W2)], numPartitions: Int): RDD[(K, (Iterable[V], Iterable[W1], Iterable[W2]))] PermalinkFor each key k in this or other1 or other2, return a resulting RDD that contains a tuple with the list of values for that key in this, other1 and other2.对于每一个k,在other1或者other2里边都可以,返回一个结果RDD,包含了一个元组,元组里面的每一个key,对应每一个other1,other2。
2.产生两个RDD
val rdd1 = sc.parallelize(Array(("aa",1),("bb",2),("cc",6)))val rdd2 = sc.parallelize(Array(("aa",3),("dd",4),("aa",5)))
3.进行cogroup操作
val rdd3 = rdd1.cogroup(rdd2).collect()
4.遍历输出集合
for (i <- 0 to rdd3.length-1){ println(rdd3(i)) }
5.完整代码及结果
object joinDemo { def main(args: Array[String]) { val sparkConf = new SparkConf().setMaster("local").setAppName("cogroup Demo") val sc = new SparkContext(sparkConf) val rdd1 = sc.parallelize(Array(("aa",1),("bb",2),("cc",6))) val rdd2 = sc.parallelize(Array(("aa",3),("dd",4),("aa",5))) val rdd3 = rdd1.cogroup(rdd2).collect() for (i <- 0 to rdd3.length-1){ println(rdd3(i)) } }}结果为:
(aa,(CompactBuffer(1),CompactBuffer(3, 5)))(dd,(CompactBuffer(),CompactBuffer(4)))(bb,(CompactBuffer(2),CompactBuffer()))(cc,(CompactBuffer(6),CompactBuffer()))
0 0
- spark算子cogroup讲解
- spark--transform算子--cogroup
- Spark函数讲解:cogroup
- spark函数讲解:cogroup
- Spark join和cogroup算子
- Spark join与cogroup算子
- Spark算子:RDD键值转换操作(4)–cogroup/join
- Spark算子:RDD键值转换操作(4)–cogroup、join
- Spark算子:RDD键值转换操作(4)–cogroup、join
- Spark算子[12]:groupByKey、cogroup、join、lookup 源码实例详解
- spark算子join讲解
- Spark算子讲解(一)
- Spark算子讲解(一)
- 2.Spark常用算子讲解
- spark RDD算子(七)之键值对分组操作 groupByKey,cogroup
- Spark编程之基本的RDD算子之cogroup,groupBy,groupByKey
- Spark函数:cogroup
- spark cogroup操作
- Install and config Redis on Mac OS X via Homebrew
- 关于Android4.x系统默认显示方向各种修改
- myeclipse编写的html页面乱码问题
- listview数据显示在最底部的设置
- C#定时检查子线程是否执行完成(定时器检查)
- spark算子cogroup讲解
- Linux信号详解
- 404. Sum of Left Leaves
- 测试要求和指标
- TensorFlow入门-MNIST & softmax regression
- 数据库事务隔离级别
- Datatables v1.10服务端模式启动js-java版本
- 完美解决频繁跳槽者的两大求职难题
- 机器学习和统计里面的auc怎么理解?