第一节 hive简介

来源：互联网发布：淘宝客怎么设置单品编辑：程序博客网时间：2024/05/16 17:36

1，什么是hive

hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。
hive是一个个构建在Hadoop HDFS上的数据仓库，是一一个数据仓库，本质上就是一个数据库hive是建立在HDFS的数据仓库基础架构（即数据存放在Hadoop HDFS上）
hive可以用来进行数据提取转化加载（ETL）。
hive定义了简单的类似SQL查询语言，称为HQL，它允许熟悉SQL的用户查询数据。
hive允许熟悉Map Reduce开发者开发自定义的mapper和reducer来处理内建的。mapper和reducer无法完成的复杂的分析工作。
hive是sql解析引擎，它将sql语句转换成M/R job，然后在Hadoop执行。
hive的表其实就是hdfs的目录/文件。

2，hive的体系结构是什么

hive体系结构图
Hive的体系结构可以分为以下几部分：
（1）用户接口主要有三个：CLI，Client 和 WUI。其中最常用的是CLI，Cli启动的时候，会同时启动一个Hive副本。Client是Hive的客户端，用户连接至Hive Server。在启动 Client模式的时候，需要指出Hive Server所在节点，并且在该节点启动Hive Server。 WUI是通过浏览器访问Hive。
（2）Hive将元数据存储在数据库中，如mysql、derby。Hive中的元数据包括表的名字，表的列和分区及其属性，表的属性（是否为外部表等），表的数据所在目录等。
（3）解释器、编译器、优化器完成HQL查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在HDFS中，并在随后有MapReduce调用执行。
（4）Hive的数据存储在HDFS中，大部分的查询、计算由MapReduce完成（包含的查询，比如select from tbl不会生成MapRedcue任务）。
Hive将元数据存储在RDBMS中，

3，hive如何与Hadoop HDFS进行相互操作

hive提供类sql的hiveQL语句，进行数据的ETL，hive会被解析为map redurce任务执行计算。

4，hive数据与Hadoop中的文件之间的关系

hive的数据以文件的形式存放在hdfs中

阅读全文

0 0