Spark部分聚合操作的API总结
来源:互联网 发布:java log日志打印 编辑:程序博客网 时间:2024/05/17 02:33
本文主要简单的讲讲Spark几个常用的聚合操作的API的使用和之间的一些区别。
- 创建一个JavaRDD和一个JavaPairRDD
reduce
运行结果reduceByKey
运行结果- aggregate
运行结果 - aggregateByKey
运行结果 - groupBy
运行结果 - groupByKey
运行结果 - fold
运行结果 - foldByKey
运行结果 combineByKey
运行结果
通过上面的代码结合官方的API介绍可以得出以下结论:reduce和aggregate都是action操作,返回一个结果,而aggregateByKey和reduceByKey都是transformation操作;
- aggregate和aggregateByKey 会现在本节点内先聚合,然后再聚合所有节点的结果,而reduce和reduceByKey则不会;
- reduce和reduceByKey的输入和输出结果类型要一样,而aggregateByKey和aggregate的输入和输出结果类型可以不一样;
- groupBy和groupByKey都是在所有节点内进行分组,groupBy按照每个元素新生的key进行分组,而groupBykey必须是对JavaPairRdd按照已有的key进行聚合;
- fold和foldByKey要求输入和输出类型一样,flod对所有的值进行聚合,而flodByKey是分别对相同key的value进行聚合;
- combineByKey可以输入输出的类型不一样,第一次遇到key,先创建组合器C,不是第一次遇到的key的value合并成C,然后把两个C-C合并。
阅读全文
0 0
- Spark部分聚合操作的API总结
- Spark-聚合操作-combineByKey
- Spark的Dataset操作(三)-分组,聚合,排序
- spark rdd操作API
- Spark 操作数据库API
- Spark—聚合操作—combineByKey
- Spark—聚合操作—combineByKey
- MongoDB的聚合操作
- mongotemplate的聚合操作
- 聚合数据api的使用
- spark的kafka的低阶API createDirectStream的一些总结。
- Spark RDD API 基本操作
- Spark RDD操作总结
- spark--DataFrame处理udf操作和一些聚合操作
- Java中单链表的部分操作总结
- 注册表操作部分API集合
- Excel 部分操作总结
- Hive部分操作总结
- 高德地图集成
- Go在酷狗数据库中间件的应用
- Blog29@linux iSCSI远程块存储
- StyleBank 学习小记:一个可以分离风格与内容的图像风格转换器
- HBase Region自动切分的所有细节都在这里了
- Spark部分聚合操作的API总结
- 程序员这个职业会是另一个即将破裂的泡沫?
- 剑指offer—正则表达式匹配
- 有关500强企业大数据
- anaconda下安装库出现UnsatisfiableError问题的解决办法
- springboot:如何优雅的使用mybatis
- 【十九】机器学习之路——朴素贝叶斯分类
- AI会让人类失业吗? 马云马化腾们不这么认为
- App数据分析到底要分析什么