hive数据表清洗
来源:互联网 发布:centos设置ip地址图形 编辑:程序博客网 时间:2024/04/28 07:28
hive数据表的数据清洗,hive中的查询都是基于map-reduce,一般向hive中导入数据的方式主要有四种:1 将本地的文件内容导入到hive中,2:将HDFS系统中的文件导入到hive表中,3:从别的表中查询出数据导入到表中。今天分享一下用map-reduce做数据清理并且将HDFS的文件导入到hive表中的操作,首先我所统计的信息中的字段user_id和subject_id在hive表中是明显错误的,subject_id是类似于““22000000”,user_id是类似于“30”这样的,我们获得字段信息是在日志信息中用tab来分割提取的,由于日志分割的错误,我们很可能得到错误的信息存到hive表中。我们处理的最开始的日志是ct_show日志,这个日志包含了很多信息,每一个日志有自己的唯一ssid,我们根据这个ssid来关联两个小时内的其他动作的log文件,比如说是click或是download,然后统计信息,存到我们的hive的表中。我们的代码是用sh脚本运行,在sh脚本中嵌入了运行map-reduce的jar包。我们在java代码里面做了一些条件过滤,然后用maven来clean和install一下,来生成jar包,放到sh脚本的指定目录下面进行执行。最后就静静的等着map和reduce了。我的方法就是,不做清洗,重新再代码里写过滤条件,然后在重新导入一遍。
阅读全文
0 0
- hive数据表清洗
- Hive元数据表
- Hive修改数据表
- Hive 数据表重命名
- Hive编程指南03---Hive数据表
- hive的元数据表清单
- HIVE元数据表/数据字典
- HIVE元数据表/数据字典
- HIVE元数据表/数据字典
- hive相关的元数据表
- hive数据表去重方法
- Hive 0.11 元数据表汇总
- Hive 元数据表结构详解
- HIVE数据表的导入导出
- hive元数据表结构解析
- 清洗
- hive分析nginx日志之UDF清洗数据
- hive数据表结构导出到文件
- 机器学习相关算法的大总结(二)
- 机器学习-介绍
- 读
- 链表的简单操作代码相关
- 正则表达式
- hive数据表清洗
- git学习经验分享(三)
- socket基础
- HDU 2256 Problem of Precision
- 哈密顿图和欧拉图知识小结
- 简单的考生管理系统,java以XML为数据库,jaxp操作XML实现简单的增删查功能
- QT问题系列(1)
- 洛谷P1024 一元三次方程求解 题解
- AOJ895 艰难取舍【DP】