Hive数据倾斜

来源:互联网 发布:vs2015 php 编辑:程序博客网 时间:2024/05/17 09:07

数据倾斜场景:少数key的数据量过于集中:

  • 由于聚合函数的操作造成
  • jion类的倾斜

处理倾斜:

  • 提前将倾斜的数据处理掉
  • 提高并行度,多分区多task
  • 对Group的聚合分段聚合局部整合
  • 对key随机打散
  • 将reduce端的聚合提前到map端
原创粉丝点击