对现有Hive的大表进行动态分区
来源:互联网 发布:北京赛车软件下载 编辑:程序博客网 时间:2024/05/21 21:54
分区是在处理大型事实表时常用的方法。分区的好处在于缩小查询扫描范围,从而提高速度。分区分为两种:静态分区static partition和动态分区dynamic partition。静态分区和动态分区的区别在于导入数据时,是手动输入分区名称,还是通过数据来判断数据分区。对于大数据批量导入来说,显然采用动态分区更为简单方便。
- 对现存hive表的分区
首先,新建一张我们需要的分区以后的表create table like 'origin'
若现存hive表中没有分区信息,我们需要手动修改hive配置数据库来增加hive表的分区信息。hive表分区存在PARTITION_KEYS数据表中,其中表项的| TBL_ID | PKEY_COMMENT | PKEY_NAME | PKEY_TYPE | INTEGER_IDX |分别是hive表名(在TBLS中存储),备注,分区名,分区索引的顺序。建立完成后我们就有一张类似于原始表,但是带有分区的表。
然后,我们修改一下hive的默认设置以支持动态分区:
set hive.exec.dynamic.partition=true;
set hive.exec.dynamic.partition.mode=nonstrict;
第二步仅在你仅使用动态分区字段做分区索引时。
然后用hive的insert命令进行插入操作。注意,除了所有列外,需要将分区的动态字段跟在后面。
INSERT OVERWRITE TABLE target PARTITION (dt)
SELECT id,user_id,app_id,time,ip,substr(time,0,10) FROM origin
可以看到,动态分区的字段支持函数操作。
这样,我们得到了一张分区后的hive大表。
参考:https://cwiki.apache.org/Hive/dynamicpartitions.html
转载地址: http://blog.csdn.net/awayyao/article/details/7630000
- 对现有Hive的大表进行动态分区
- 对现有Hive的大表进行动态分区
- 对现有Hive的大表进行动态分区
- 对现有Hive的大表进行动态分区
- 对现有Hive的大表进行动态分区
- 对Hive的大表进行动态分区
- HIVE的动态分区插入
- Hive的静态分区和动态分区
- Android群英传--对现有控件进行拓展(动态的文字闪动效果)
- 大数据Hive的案例、参数、动态分区、分桶、视图、索引、运行方式、权限管理、Hive的优化_03_03
- 空分区对hive执行的影响
- Hive 动态分区 & 静态分区
- hive动态分区
- Hive动态分区
- Hive动态分区
- HIVE动态分区实战
- Hive动态分区
- Hive动态分区
- 中缀表达式转化为后缀表达式,并计算结果
- Josephus again HDU
- 基于CAN总线的实验室管理系统
- 657. Judge Route Circle
- 51nod 1021 石子归并
- 对现有Hive的大表进行动态分区
- SXOJ843 迷失的奶牛
- 21分钟Mysql入门教程
- Centos 安装mysql问题解决
- getComputedStyle
- 样式与主题
- LDAP报错:javax.naming.AuthenticationException: [LDAP: error codelid Credentials]
- python封装一个效率极高的 批量更新、插入合一的工具
- angular的修改,性别筛选