Spark实现HIVE统计结果导入到HBase操作
来源:互联网 发布:手残大联盟2杀人网络 编辑:程序博客网 时间:2024/05/29 02:42
由于HIVE更新的机制极其不适应SPARK环境,于是利用HBase来执行HIVE中某些统计结果的更新。首先要做的是实现Spark + Hive访问,得到RDD,再将这个RDD导入到HBase中操作。
然而网上关于这一块目前资料还真很少。但是其原理总体上来说是非常简单的。
步骤主要是两步:
(1)开启hive连接器,实现spark + hive的访问,得到dataframe对象。
然而网上关于这一块目前资料还真很少。但是其原理总体上来说是非常简单的。
步骤主要是两步:
(1)开启hive连接器,实现spark + hive的访问,得到dataframe对象。
(2)对dataframe进行RDD转换,进行hbase的批量导入bulkput函数来实现。
hbaseContext.bulkPut[Row](rddFromSql.rdd,
tableName,
(putRecord) => {
val put = new Put(Bytes.toBytes(putRecord.getString(0)))
put.add(Bytes.toBytes(columnFamily1),Bytes.toBytes("receiver"),Bytes.toBytes(putRecord.getString(1)))
put.add(Bytes.toBytes(columnFamily1),Bytes.toBytes("count"),Bytes.toBytes(putRecord.getLong(2)))
put
},
true);
运行成功,成功导入600W数据.
0 0
- Spark实现HIVE统计结果导入到HBase操作
- hive导入数据到hbase
- hive批量导入到hbase
- MapReduce统计结果输出到hbase
- Hive表数据导入到Hbase
- Hive表数据导入到Hbase
- Spark将HDFS数据导入到HBase
- Spark将HDFS数据导入到HBase
- spark生成HFile导入到hbase
- Spark将HDFS数据导入到HBase
- spark从mongodb导入数据到hive
- Spark Streaming从Kafka自定义时间间隔内实时统计行数、TopN并将结果存到hbase中
- Spark Streaming从Kafka自定义时间间隔内实时统计行数、TopN并将结果存到hbase中
- HIVE分析统计结果直接导入mysql数据库
- spark 连接hbase hive
- Hive数据导入HBase
- HBASE数据导入HIVE
- 【spark】spark-hive操作
- Objective-C Runtime
- Android的数据存储
- Android调用Java EE+axis2搭建的webservice服务详解
- 黑马程序员——IO流及其他常见流
- 千万级到10亿+的疯涨,搜狗商业平台服务化体系实践之路
- Spark实现HIVE统计结果导入到HBase操作
- symfony中session存入到memcache中都使用方法总结
- C++中的函数对象(Function Object)
- 就绪表 学习笔记
- centos magento redis
- 【SQL Server】导出一张表的建表语句、查询某表的列(字段)名
- shader学习笔记一
- Supporting Different Platform Versions(如何支持不同版本的安卓平台)
- Spring配置文件详解 - applicationContext.xml文件路径