hive中Buckets详解

来源:互联网 发布:税友软件集团 编辑:程序博客网 时间:2024/06/16 08:33

Buckets 对指定列计算 hash,根据 hash 值切分数据,目的是为了并行,每一个 Bucket 对应一个文件。

将 user 列分散至 32 个 bucket,首先对 user 列的值计算 hash,

对应 hash 值为 0的 HDFS 目录为:/wh/pvs/ds=20090801/ctry=US/part-00000;

对应hash 值为 20 的 HDFS 目录为:/wh/pvs/ds=20090801/ctry=US/part-00020

0 0