hive导入CSV数据,使用动态分区重新分区
来源:互联网 发布:win7开机优化加速软件 编辑:程序博客网 时间:2024/05/22 08:20
创建数据表
hive> create database cus;hive> use cus;hive> create table telno_md5( > phone string, > md5 string ) > ROW FORMAT DELIMITED > FIELDS TERMINATED BY ',' > STORED AS TEXTFILE;
导入数据
hive> load data local inpath '/home/etluser/data/' into table telno_md5;
创建重新分区表
hive> create table telno_md5_prt( > phone string, > md5 string ) > partitioned by (prefix string);
使用动态分区,插入数据
hive> set hive.exec.dynamic.partition=true;hive> set hive.exec.dynamic.partition.mode=nonstrict;hive> set hive.exec.max.dynamic.partitions.pernode=100000; hive> set hive.exec.max.dynamic.partitions=100000; hive> set hive.exec.max.created.files=1000000000; hive> insert into table telno_md5_prt > partition (prefix) > select phone,md5,substr(md5,1,2) as prefix > from telno_md5;
* 参数的含义参考https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DML#LanguageManualDML-DynamicPartitionInserts*
与桶表的比较
create table telno_md5_bucketed(phone string,md5 string )clustered by(md5) into 1024 buckets;insert overwrite table telno_md5_bucketedselect phone,md5 from telno_md5;
执行结果比较
阅读全文
0 0
- hive导入CSV数据,使用动态分区重新分区
- hive 动态分区使用
- HIVE动态分区和动态导入
- Hive使用动态分区问题
- 导入作业数据集total.csv到Hive中,用日期做为分区表的分区ID
- hive 分区partition表 创建 数据导入(动态分区插入、静态分区插入、动静态混合插入)
- Hive 动态分区 & 静态分区
- Hive 分区,静态分区,动态分区
- Hive通过动态分区装载数据
- Hive 视图 索引 动态分区装载数据
- hive向动态分区插入数据
- Hive通过动态分区装载数据
- [Hive]Hive静态分区与动态分区
- hive使用动态分区问题3
- hive动态分区
- Hive动态分区
- Hive动态分区
- HIVE动态分区实战
- Webpack 删除重复文件的一种优化思路
- 20171207学习笔记之layer实现删除确认及操作完成后弹出提醒,然后刷新本页面
- [技巧分享-window10系统]Window10 锁定和解锁编辑注册表
- vuejs
- VUE(六)
- hive导入CSV数据,使用动态分区重新分区
- tarjan缩点/求桥模板
- for,空指针异常
- Choose and divide
- cmder的powershell如何修改λ为$以及修改默认的开启目录
- LSTM Networks for Sentiment
- sed 去除所有空格
- xcode引入opencv以及其他c/c++库时遇到的错误
- 3dmax tcb控制器