hive 数据倾斜实际问题中总结
来源:互联网 发布:linux ntp同步 编辑:程序博客网 时间:2024/06/03 14:30
1.数据倾斜原因
a.大表(2.8G)与小表关联(580K)
b.大表(2.8G)与大表(3.0G)关联
首先谈论大表与小表的关联导致数据倾斜问题
实例如下:
大表数据格式:
小表数据格式:
关联语句
hive>select * from report_tour_spot_detail s join report_tour_msg_detail r on s.scenicid=r.scenicid;
上面情况会产生数据倾斜,原因:由于大表与小表数据量相差3000倍,遍历整个过程需要大表数据条数X小表的数据条数=总量。这样会导致数据严重倾斜。具体表现:后台数据写入一直出去某种状态如控制台一直处于38%处理状态。二,磁盘的容量被大量占用,严重会导致集群崩溃。
解决方案:左右表关联查询将小表置于左侧。这样其数据先读入磁盘中(原理仅用map在磁盘中处理),减少线上(reduce)数据处理的压力。
大表与大表关联查询
大表格式:
大表格式:
hive>select /*+ MAPJOIN(b) */ s.tourname, s.rank, s.spotname, s.spotprovince, s.spotcityname, s.tourtype, r.sex, r.birthday, r.tel, r.certificate_no, r.close_total_price, r.occ_date
from scenic_info_detail s join report_tour_msg_detail r on s.scenicid=r.scenicid;
原因:由于两张表中scenicid字段中分别存在大量的重复数据。如1105字段在scenic_info_detail表中有大量的重复。而在report_tour_msg_detail表中scenicid字段也有重复的数据,二者对该字段关联查询时导致数据倾斜。
- hive 数据倾斜实际问题中总结
- Hive 数据倾斜总结
- hive 数据倾斜总结
- hive 数据倾斜总结
- hive数据倾斜总结
- hive数据倾斜总结
- Hive数据倾斜总结
- Hive数据倾斜总结
- hive数据倾斜总结
- Hive 数据倾斜总结
- Hive 数据倾斜总结
- Hive-数据倾斜总结
- Hive 数据倾斜总结
- Hive 数据倾斜总结
- Hive 数据倾斜总结
- hive 数据倾斜总结
- Hive数据倾斜总结
- hive数据倾斜总结
- 数据结构作业 栈 实现 括号匹配 问题
- ios客户端学习-AppDelegate获取UINavigationController及UIStoryboard
- 入门 | 初学者必读:解读14个深度学习关键词
- 解决ie9以下的跨域问题
- 简析TCP的三次握手与四次分手
- hive 数据倾斜实际问题中总结
- 第八周项目4-字符串加密
- 绘图
- Servlet Cookies 处理
- unityA* 寻路算法,使用OnGUI()函数
- java只有值传递的结论
- Java代码编译和执行的整个过程
- TCGA数据下载:R包RTCGAToolbox介绍
- Go使用glide管理依赖库