Spark combinebykey使用示例
来源:互联网 发布:php artisan 安装 编辑:程序博客网 时间:2024/06/03 05:08
combineByKey是对RDD中的数据集按照Key进行聚合操作。聚合操作的逻辑是通过自定义函数提供给combineByKey。
val rdd = sc.parallelize(data, 2)
mergeCombiners = (c1:(Double, Int), c2:(Double, Int)) => (c1._1 + c2._1, c1._2 + c2._2),
numPartitions = 2 )
combine1.collect
res0: Array[(Int, (Double, Int))] = Array((2,(15.0,3)), (1,(6.0,3)))
combineByKey[C](createCombiner: (V) ⇒ C, mergeValue: (C, V) ⇒ C, mergeCombiners: (C, C) ⇒ C, numPartitions: Int):RDD[(K, C)]
把(K,V) 类型的RDD转换为(K,C)类型的RDD,C和V可以不一样。
combineByKey三个参数:
val data = Array((1, 1.0), (1, 2.0), (1, 3.0), (2, 4.0), (2, 5.0), (2, 6.0))val rdd = sc.parallelize(data, 2)
val combine1 = rdd.combineByKey(
createCombiner = (v:Double) => (v:Double, 1),
mergeValue = (c:(Double, Int), v:Double) => (c._1 + v, c._2 + 1),mergeCombiners = (c1:(Double, Int), c2:(Double, Int)) => (c1._1 + c2._1, c1._2 + c2._2),
numPartitions = 2 )
combine1.collect
res0: Array[(Int, (Double, Int))] = Array((2,(15.0,3)), (1,(6.0,3)))
阅读全文
0 0
- Spark combinebykey使用示例
- Spark中的combineByKey
- Spark函数讲解:combineByKey
- Spark-聚合操作-combineByKey
- Spark 核心算子:combineByKey()
- spark 算子combineByKey 详解
- Spark算子篇-combineByKey实战
- spark学习之combineByKey函数
- Spark RDD算子【三】combineByKey
- Spark之combineByKey详解Java
- spark中算子详解:combineByKey
- Spark算子[08]:combineByKey详解
- [Spark--PairRDDFunctions]--combineByKey的解释
- Spark算子使用示例
- Spark算子使用示例
- Spark WordCount使用示例
- Spark算子使用示例
- Spark算子使用示例
- webpack
- HTML 的input 時間默认值,随便的时间
- 理解Android进程创建流程
- javscript之执行环境和作用域
- LeetCode-217. Contains Duplicate (Java)
- Spark combinebykey使用示例
- Android studio关于 找不到arr文件的问题
- 【剑指Offer】面试题54:表示数值的字符串
- mixin
- Java VisualVM插件下载地址
- Ubuntu下加大tomcat内存
- json数组
- 5.7-全栈Java笔记:字符串String的常用方法
- ptyhon 类的继承和定制类