每日定时导入hive数据仓库的自动化脚本
来源:互联网 发布:java 时间轴数据 编辑:程序博客网 时间:2024/06/14 04:00
[Author]: kwu
每日定时导入hive数据仓库的自动化脚本
创建shell脚本,创建临时表,装载数据,转换到正式的分区表中:
#!/bin/sh# upload logs to hdfsyesterday=`date --date='1 days ago' +%Y%m%d`hive -e "use stage;create table tracklog_tmp (dateday string,datetime string,ip string ,cookieid string,userid string,logserverip string,referer string,requesturl string,remark1 string,remark2 string,alexaflag string,ua string,wirelessflag string)ROW FORMAT DELIMITED FIELDS TERMINATED BY ' ';"hive -e "use stage;set hive.enforce.bucketing=true;set hive.exec.compress.output=true;set mapred.output.compress=true;set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;set io.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;load data local inpath '/diskg/hexunlogs/tracklog_10.0.251.146/${yesterday}/${yesterday}??.dat' overwrite into table tracklog_tmp;insert into table tracklog PARTITION (day='${yesterday}') select * from tracklog_tmp;load data local inpath '/diskg/hexunlogs/tracklog_10.0.121.74/${yesterday}/${yesterday}??.dat' overwrite into table tracklog_tmp;insert into table tracklog PARTITION (day='${yesterday}') select * from tracklog_tmp;load data local inpath '/diskg/hexunlogs/tracklog_10.0.190.13/${yesterday}/${yesterday}??.dat' overwrite into table tracklog_tmp;insert into table tracklog PARTITION (day='${yesterday}') select * from tracklog_tmp;load data local inpath '/diskg/hexunlogs/trackloguc_10.0.251.146/${yesterday}/${yesterday}??.dat' overwrite into table tracklog_tmp;insert into table tracklog PARTITION (day='${yesterday}') select * from tracklog_tmp;load data local inpath '/diskg/hexunlogs/trackloguc_10.0.121.74/${yesterday}/${yesterday}??.dat' overwrite into table tracklog_tmp;insert into table tracklog PARTITION (day='${yesterday}') select * from tracklog_tmp;load data local inpath '/diskg/hexunlogs/trackloguc_10.0.190.13/${yesterday}/${yesterday}??.dat' overwrite into table tracklog_tmp;insert into table tracklog PARTITION (day='${yesterday}') select * from tracklog_tmp;"hive -e "use stage;drop table tracklog_tmp ;"hive -e "set hive.enforce.bucketing=true;set hive.exec.compress.output=true;set mapred.output.compress=true;set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;set io.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;insert into table ods.tracklog PARTITION (day='${yesterday}') select dateday, datetime,ip,cookieid,userid, logserverip,referer,requesturl ,remark1,remark2,alexaflag,ua,wirelessflag from stage.tracklog where day='${yesterday}' and length(datetime)=12 ;"
在crontab中加入定时任务
crontab -e
加入如下代码
#import tracklog
25 07 * * * /opt/bin/hive_opt/import_tracklog.sh
刷新定时任务的配置
/sbin/service crond reload
2 1
- 每日定时导入hive数据仓库的自动化脚本
- 每日定时导入hive数据仓库的自动化脚本
- python脚本用sqoop把mysql数据导入hive数据仓库中
- python脚本用sqoop把mysql数据导入hive数据仓库中
- Hive数据仓库-Sqoop导入数据注意事项
- hive 的数据仓库的使用
- Hive数据仓库-Sqoop将数据从Mysql导入Hive中
- 基于Hive的数据仓库架构
- Hadoop数据仓库hive的应用
- Hive - 数据仓库的性能优化
- hive (基于hadoop的数据仓库)
- hive--基于Hadoop的数据仓库Hive 学习指南
- 基于Hive及Sqoop的每日PV、UV、IP定时分析
- 基于Hive及Sqoop的每日PV、UV、IP定时分析
- Hive-数据仓库
- Hive结合shell脚本实现自动化业务
- crontab定时启动脚本,自动化配置
- 基于mysql的Hive数据仓库的搭建
- PMBOK(第五版)学习笔记 —— 13 项目干系人管理
- hihocoder 1157 建造金字塔 (DP)
- javacv 视频转换
- 新型汽车车速里程表信号采集与处理研究
- RSA加密Socket传输文件、签名
- 每日定时导入hive数据仓库的自动化脚本
- IOS 单元测试
- android studio 导入项目
- 一种基于主板BIOS的身份认证方案及实现
- Leetcode: Search in Rotated Sorted Array
- android socket通讯,PC和模拟器,两个模拟器之间的通信
- GridView中合并单元格
- C语言的学习要从基础,100个经典的算法 (转载)
- Apriori算法学习和java实现