hive mapjoin使用
来源:互联网 发布:淘宝开店计划 编辑:程序博客网 时间:2024/06/08 14:34
今天遇到一个Hive的问题,如下hive sql:
select f.a,f.b from A t join B f on ( f.a=t.a and f.ftime=20110802)
该语句中B表有30亿行记录,A表只有100行记录,而且B表中数据倾斜特别严重,有一个key上有15亿行记录,在运行过程中特别的慢,而且在reduece的过程中遇有内存不够而报错。
为了解决用户的这个问题,考虑使用mapjoin,mapjoin的原理:
MAPJION会把小表全部读入内存中,在map阶段直接拿另外一个表的数据和内存中表数据做匹配,由于在map是进行了join操作,省去了reduce运行的效率也会高很多
这样就不会由于数据倾斜导致某个reduce上落数据太多而失败。于是原来的sql可以通过使用hint的方式指定join时使用mapjoin。
select /*+ mapjoin(A)*/ f.a,f.b from A t join B f on ( f.a=t.a and f.ftime=20110802)
再运行发现执行的效率比以前的写法高了好多。
mapjoin还有一个很大的好处是能够进行不等连接的join操作,如果将不等条件写在where中,那么mapreduce过程中会进行笛卡尔积,运行效率特别低,如果使用mapjoin操作,在map的过程中就完成了不等值的join操作,效率会高很多。
例子:
select A.a ,A.b from A join B where A.a>B.a
简单总结一下,mapjoin的使用场景:
1. 关联操作中有一张表非常小
2.不等值的链接操作
阅读全文
0 0
- hive mapjoin使用
- #Hive#Mapjoin的使用
- hive mapjoin使用
- hive mapjoin使用
- hive mapjoin使用
- hive mapjoin使用
- hive mapjoin使用
- hive mapjoin使用
- hive使用mapjoin
- hive mapjoin使用
- hive mapjoin使用
- hive mapjoin使用
- hive mapjoin 使用
- Hive中Mapjoin的使用
- hive mapjoin
- Hive MapJoin
- hive mapjoin 使用 和个人理解
- Hive mapjoin使用(数据倾斜优化)
- JavaScript MD5加密
- 双向链表
- 中小企业OA系统自动办公软件
- 【前端知识点】详解js变量、作用域及内存
- Tensorflow 解决 overfitting
- hive mapjoin使用
- LeetCode-461. Hamming Distance
- gpg
- Java 类加载执行顺序
- Snackbar 工具类,一行代码设置多重属性
- android : 空白签名与二次签名
- c语言 json使用方法
- Android图片加载框架最全解析(二),从源码的角度理解Glide的执行流程
- POJ 1163 The Triangle