Spark combinebykey使用示例

来源：互联网发布：php artisan 安装编辑：程序博客网时间：2024/06/03 05:08

combineByKey是对RDD中的数据集按照Key进行聚合操作。聚合操作的逻辑是通过自定义函数提供给combineByKey。

combineByKey[C](createCombiner: (V) ⇒ C, mergeValue: (C, V) ⇒ C, mergeCombiners: (C, C) ⇒ C, numPartitions: Int):RDD[(K, C)]

把(K,V) 类型的RDD转换为(K,C)类型的RDD，C和V可以不一样。

combineByKey三个参数：

val data = Array((1, 1.0), (1, 2.0), (1, 3.0), (2, 4.0), (2, 5.0), (2, 6.0))
val rdd = sc.parallelize(data, 2)

val combine1 = rdd.combineByKey(

createCombiner = (v:Double) => (v:Double, 1),

mergeValue = (c:(Double, Int), v:Double) => (c._1 + v, c._2 + 1),
mergeCombiners = (c1:(Double, Int), c2:(Double, Int)) => (c1._1 + c2._1, c1._2 + c2._2),
numPartitions = 2 )
combine1.collect
res0: Array[(Int, (Double, Int))] = Array((2,(15.0,3)), (1,(6.0,3)))

阅读全文

0 0

Spark combinebykey使用示例
Spark中的combineByKey
Spark函数讲解：combineByKey
Spark-聚合操作-combineByKey
Spark 核心算子：combineByKey()
spark 算子combineByKey 详解
Spark算子篇-combineByKey实战
spark学习之combineByKey函数
Spark RDD算子【三】combineByKey
Spark之combineByKey详解Java
spark中算子详解：combineByKey
Spark算子[08]：combineByKey详解
[Spark--PairRDDFunctions]--combineByKey的解释
Spark算子使用示例
Spark算子使用示例
Spark WordCount使用示例
Spark算子使用示例
Spark算子使用示例
webpack
HTML 的input 時間默认值，随便的时间
理解Android进程创建流程
javscript之执行环境和作用域
LeetCode-217. Contains Duplicate (Java)
Spark combinebykey使用示例
Android studio关于找不到arr文件的问题
【剑指Offer】面试题54：表示数值的字符串
mixin
Java VisualVM插件下载地址
Ubuntu下加大tomcat内存
json数组
5.7-全栈Java笔记:字符串String的常用方法
ptyhon 类的继承和定制类