如何每日增量加载数据到Hive分区表
来源:互联网 发布:淘宝泰州医药城地址 编辑:程序博客网 时间:2024/06/05 10:09
加载数据 数据加载到Hive分区表(两个分区,日期(20160316)和小时(10))中 每日加载前一天的日志文件数据到表db_track.track_log>> 数据存储说明: 数据日志文件,放入某个目录下 >>>> 每天日志文件放入同一个目录 20160316 - 目录名称 >>>> 日志文件数据,每个小时生成一个文件,一天总共有二十四个文件 2016031820
- 创建track_log.sh文件
#!/bin/sh## 环境变量生效. /etc/profile## 日志目录LOG_DIR=/data/tracklogs## 目录名称yesterday=`date -d -1day '+%Y%m%d'`##hive homeHIVE_HOME=/opt/app/cdh5.3.6/hive-0.13.1-cdh5.3.6## 循环目录for line in `ls ${LOG_DIR}/${yesterday}` do echo "loading ${line} ....." ##从文件名称中解析出日期和小时 daily=${line:0:8} hour=${line:8:2} ##echo ${daily} ${hour} LOAD_FILE=${LOG_DIR}/${yesterday}/${line} ## 命令加载 #${HIVE_HOME}/bin/hive -e "LOAD DATA LOCAL INPATH '${LOAD_FILE}' OVERWRITE INTO TABLE db_track.track_log PARTITION(date='${daily}',hour='${hour}');" ##文件加载 ${HIVE_HOME}/bin/hive --hiveconf LOAD_FILE_PARM=${LOAD_FILE} --hiveconf daily_parm=${daily} --hiveconf hour_parm=${hour} -f /home/ycong/load_data.sqldone
- 创建load_data.sql文件
LOAD DATA LOCAL INPATH '${hiveconf:LOAD_FILE_PARM}' OVERWRITE INTO TABLE db_track.track_log PARTITION(date='${hiveconf:daily_parm}',hour='${hiveconf:hour_parm}');
执行命令
./load_track_logs.sh
创建crontab
## night 1:30 exute min hour day month week30 1 * * * /bin/sh /home/ycong/load_track_logs.sh
0 0
- 如何每日增量加载数据到Hive分区表
- 如何每日增量加载数据到Hive分区表
- sqoop 导出 hive分区表 数据到 mysql
- Hive数据加载(内部表,外部表,分区表)
- Hive 笔记之 创建外部分区表并加载数据
- HIVE分区表指定location加载不到数据解决方案
- Hive表路径修改和分区表数据加载命令
- SparkSQL写数据到Hive的动态分区表
- 通过sqoop增量传送oracle数据到hive
- 使用 sqoop从MySQL增量导出数据到hive
- 加载数据到hive中的方式
- 数据文件数据加载到hive表
- LO增量数据加载
- [Hive]MapReduce将数据写入Hive分区表
- Hive外部分区表加载flume打到hdfs上文件,读不到.tmp文件
- 导入作业数据集total.csv到Hive中,用日期做为分区表的分区ID
- Python将Mysql分表数据按小时增量装载到Hive示例
- Hive中如何快速的复制一张分区表(包括数据)
- View之孪生兄弟 ----- SurfaceView
- 全备份、差异备份和增量备份概念详述
- c语言:顺序表的实现(三)将元素e插入到一个递减有序表中,不改变顺序表的递减有序性。
- 表单
- 跟我一起学习mysql技术内幕(第五版)吧!(学习日志)
- 如何每日增量加载数据到Hive分区表
- leetcode014 Longest Common Prefix
- Android中常见IPC方法总结
- BootStrap-table 复选框 问题
- Netty系列之Netty百万级推送服务设计要点
- 公共技术点之面向对象六大原则
- 2016高端对话:CMMI的企业价值
- Fragment的startActivityForResult详细解决方案
- python之类-django进阶