Spark优化操作_自定义groupby
来源:互联网 发布:数据结构和算法分析pdf 编辑:程序博客网 时间:2024/06/14 09:32
groupby或者groupbyKey算子效率太低,自己重写了一下。
//用combineByKey替代groupByval home_data_combine: RDD[(String, List[home_info])] = phone_date_key_data. map(home => (home.phone_date, home)). partitionBy(new org.apache.spark.HashPartitioner(1000)). combineByKey((x: home_info) => List(x), (curlist: List[home_info], x: home_info) => x :: curlist, (curlist1: List[home_info], curlist2: List[home_info]) => curlist1 ::: curlist2)
大家都应该了解,reduceByKey的效率会比groupbyKey高很多,但你就是要实现一个聚合的过程,并不需要reduce,就需要用groupby或者groupbyKey,但他们的效率太低了。需要自己实现一个。此处combineByKey来实现聚合的过程。
实现说明:
1.先做partitionBy
2.调用combineByKey,在每个partition内用list实现聚合
要充分理解的combineByKey实现过程,如上过程就会比较了解了。
阅读全文
0 0
- Spark优化操作_自定义groupby
- Spark优化操作_自定义distinct
- [Spark--基础]--聚合操作-reduceByKey、combineBykey、groupBy和AggregateByKey
- spark 的groupby
- 【spark】group\groupBy
- mysql groupby 优化
- Linq GroupBy操作
- RxJava 转换操作符groupBy
- spark<实现SQL中的GroupBY后取组内TopN>
- 大数据Spark “蘑菇云”行动第89课:Hive中GroupBy优化、Join的多种类型实战及性能优化、OrderBy和SortBy、UnionAll等实战和优化
- hive语句优化-通过groupby实现distinct
- hive语句优化-通过groupby实现distinct
- hive语句优化-通过groupby实现distinct
- BUG集之自定义函数与groupby
- Linq操作符GroupBy的使用
- C# 3.0介绍 (九)- GroupBy操作
- Spark RDD中Transformation的groupBy、partitionBy、cogroup详解
- Spark API 详解/大白话解释 之 groupBy、groupByKey
- svn命令行回滚到指定版本
- pyinstaller UI python 的一个打包exe工具
- OffsetDateTime工具类
- POJ 3007.Organize Your Train part II
- RS485硬件标准1-电平定义
- Spark优化操作_自定义groupby
- input添加照片
- PHP使用ocupload插件 一键上传并解析EXCEL
- 测试用例的基础知识资料分享~
- 监控微程序
- tensorflow手动编译的坑
- I,P,B帧和PTS,DTS的关系及GOP基本概念——简介
- JS中的this用法详解
- Python 求最小公倍数和最大公约数的递归写法