reduce个数的决定因素

来源:互联网 发布:湖南网络工程学院快递 编辑:程序博客网 时间:2024/04/28 19:49
reduce数量由以下三个参数决定,

mapred.reduce.tasks(强制指定reduce的任务数量)

hive.exec.reducers.bytes.per.reducer(每个reduce任务处理的数据量,默认为1000^3=1G)

hive.exec.reducers.max(每个任务最大的reduce数,默认为999)

计算reducer数的公式很简单N=min( hive.exec.reducers.max ,总输入数据量/ hive.exec.reducers.bytes.per.reducer )

  只有一个reduce的场景:
  a、没有group by 的汇总
  b、order by
  c、笛卡尔积
原创粉丝点击