Hive概述及入门

来源：互联网发布：没钱出国知乎编辑：程序博客网时间：2024/06/05 12:17

MapReduce编程的不便性以及Hive的产生背景
1）MapReduce繁琐
Mapper
Reducer
Driver
package

2）大量数据都存放在HDFS，如何快速的对HDFS上的文件进行统计分析操作？
学Java、学MapReduce
DBA: SQL
HDFS: 仅仅只是一个纯的文本文件而已，并没有schema的概念
没有schema，那么就办法使用sql进行查询

如何为HDFS上的文件添加Schema信息

Hive：使用一种类似于SQL的查询语言直接作用在分布式存储系统的文件之上
facebook开源，解决海量结构化的日志数据统计问题
构建在Hadoop之上的数据仓库
Hive的数据是存放在HDFS
Hive的计算是通过yarn和mr
引擎： Hive QL ==> MapReduce 详细过程参考：http://blog.csdn.net/qq_32252917/article/details/78198832
Hive底层：MapReduce、Spark(Hive on Spark)、Tez
压缩/存储格式

Hive发展历程：
07/08 facebook
13/05 hive-0.11 Stinger Phase 1 ORC/HiveServer2
13/10 hive-0.12 Stinger Phase 2 ORC improvement（改善）
14/04 hive-0.13 Stinger Phase 3 Tez/Vectorized query engine（向量化查询）
14/11 hive-0.14 Stinger.next Phase 1 Cost-based optimizer(CBO)
...... Hive-1/2

The Stinger Initiative making Apache Hive 100 times faster

阅读全文

0 0