Hive优化--分区表与分桶表
来源:互联网 发布:淘宝转运网站 编辑:程序博客网 时间:2024/04/28 10:59
1. 根据业务特征创建分区表
使用分区表能有效地分隔数据,分区条件作为查询条件时,减少扫描的数据量,加快查询的效率。如果业务数据有明显的时间、区域等维度的区分,同时有较多的对应维度的查询条件时,建议按照相应维度进行一级或多级分区。
2. 根据业务特征创建分桶表
分桶的目的是便于高效采样和为Bucket MapJoin及SMB Join做数据准备。对于Hive表有按照某一列进行采样稽核的场景,建议以该列进行分桶。数据会以指定列的值为key哈希到指定数目的桶中,从而支持高效采样。
对于对两个或多个数据量较大的Hive表按照同一列进行Join的场景,建议以该列进行分桶。当Join时,仅加载部分桶的数据到内存,避免OOM。
0 0
- Hive优化--分区表与分桶表
- hive-静态分区表与动态分区表
- Hive分区表与分桶
- hive 外部分区表的创建与应用
- hive 分区表
- Hive分区表
- Hive分区表
- Hive分区表
- hive 分区表
- hive分区表
- hive分区表
- hive查询与优化
- Hive静态分区表&动态分区表
- Hive 之内/外表 与 分区表/桶表区别
- [Hive]Hive分区表新增字段
- hive sql分区表
- hive创建分区表问题
- hive sql分区表
- 简图记录-番茄时间管理
- linux笔记-awk详解
- Linux编程设计——套接字
- Hive优化--文件压缩格式
- Spring AOP代理Controller层
- Hive优化--分区表与分桶表
- 九大排序算法
- MySQL导入.sql文件及常用命令
- Java 8系列之重新认识HashMap
- 【PS】地面多边形效果
- 布隆过滤器的用法
- Java之编译时与运行时
- 面向对象_带包的类编译和运行
- 作文 —— 哲理的句子