RDD的Join
来源:互联网 发布:赵薇背后的势力 知乎 编辑:程序博客网 时间:2024/05/21 19:25
工作中遇到一个问题:在Spark的map阶段要用到Hive中的表中的数据
最开始的想法就是预加载,在map阶段之前将表加载到DataFrame中,然后作为map的参数传入
因为刚接触Spark,不了解具体执行机制,map阶段是分布式的,所以这样也就是说要将DataFrame传输到其他几台机器,如果Hive表非常大,那么内存带宽就是瓶颈
后来看到RDD数据集,作为Spark特有的数据集,想到可以将DataFrame转换为一个RDD数据集,然后在map阶段之前和原有的RDD数据集做一个join,
这样在map阶段就会变成一个Join后的RDD数据集,就可以直接操作。
因为都是元组类型,直接调用方法leftOuterJoin即可。
例如:
RDD[(K,V)] RDD[(K,W)] join后就是RDD[(K, (V, Option[W]))]
具体可见:spark Scala API
参考:http://lxw1234.com/archives/2015/07/386.htm
0 0
- RDD的Join
- rdd的join使用
- spark RDD join的核心过程
- Spark RDD中Transformation的combineByKey、reduceByKey,join详解
- Spark 实践 - RDD 的 join操作之需要注意的事项 - RDD为空的join操作
- RDD Join 性能调优
- RDD Join 性能调优
- RDD Join 性能调优
- Spark编程之基本的RDD算子之join,rightOuterJoin, leftOuterJoin
- 多个RDD JOIN 之后 去除括号,
- Spark RDD转换操作union、join、cogroup
- day17:RDD案例(join、cogroup、reduceByKey、groupByKey, join cogroup
- Spark RDD的缓存 rdd.cache() 和 rdd.persist()
- Spark RDD的缓存 rdd.cache() 和 rdd.persist()
- 创建RDD和RDD的持久化
- Spark算子:RDD键值转换操作(4)–cogroup/join
- RDD键值转换操作(4)–cogroup、join
- Spark算子:RDD键值转换操作(4)–cogroup、join
- Android View体系(二)实现View滑动的六种方法
- C++卷积神经网络实例:tiny_cnn代码详解(12)——从CNN中看多态性
- mac 下安装android studio
- POJ3669-Meteor Shower
- spring常用的工具类
- RDD的Join
- HDU 5115 Dire Wolf(区间DP)
- (OK) 编译batman-adv.ko—成功—android—cm11源码—下载
- Java垃圾回收机制
- 帮助文档生成
- 项目3——时间类1
- 编程练习一————贪心算法
- webservice的两种调用方式
- HTML学习笔记(十一)内联框架