hive bucket产生的小文件问题

来源:互联网 发布:汽车销量官方数据 编辑:程序博客网 时间:2024/05/16 02:38

Hive bucket主要作用:
1. 数据sampling
2. 提升某些查询操作效率,例如mapside join


与此同时,在数据不均匀的情况下,bucket产生大量小文件,会带来很大麻烦,具体表现为:
1. 文件数目过多,给namenode带来压力
2. 在对查询条件不加限制时,启动大量map任务
3. 数据入库慢

结论:
bucket,慎用!

原创粉丝点击