Hive概述及入门

来源:互联网 发布:没钱出国知乎 编辑:程序博客网 时间:2024/06/05 12:17
MapReduce编程的不便性以及Hive的产生背景
1)MapReduce繁琐
Mapper
Reducer
Driver
package

2)大量数据都存放在HDFS,如何快速的对HDFS上的文件进行统计分析操作?
学Java、学MapReduce
DBA: SQL
HDFS: 仅仅只是一个纯的文本文件而已,并没有schema的概念
没有schema,那么就办法使用sql进行查询

如何为HDFS上的文件添加Schema信息

Hive:使用一种类似于SQL的查询语言直接作用在分布式存储系统的文件之上
facebook开源,解决海量结构化的日志数据统计问题
构建在Hadoop之上的数据仓库
Hive的数据是存放在HDFS
Hive的计算是通过yarn和mr
引擎: Hive QL ==> MapReduce    详细过程参考:http://blog.csdn.net/qq_32252917/article/details/78198832
Hive底层:MapReduce、Spark(Hive on Spark)、Tez
压缩/存储格式


Hive发展历程:
07/08  facebook
13/05  hive-0.11  Stinger Phase 1  ORC/HiveServer2
13/10  hive-0.12  Stinger Phase 2  ORC improvement(改善)
14/04  hive-0.13  Stinger Phase 3  Tez/Vectorized query engine(向量化查询)
14/11  hive-0.14  Stinger.next Phase 1  Cost-based optimizer(CBO)
......  Hive-1/2


The Stinger Initiative making Apache Hive 100 times faster



原创粉丝点击