map reduce解决数据不平衡问题

来源:互联网 发布:数据库中关系的定义 编辑:程序博客网 时间:2024/05/16 14:22

hadoop数据不平衡有两种情况
第一种情况是某个NN的数据量很大
可以通过hadoop的balance进行数据平衡,可以多开几个map
第二种情况是某个key的数据很多,reduce过程很慢
可以把key分成多个key进行reduce,然后再进行合并。

https://www.zhihu.com/question/32054214