大数据--hive学习(1)--hive的简单认识

来源:互联网 发布:json和javascript 编辑:程序博客网 时间:2024/05/17 10:06

鄙人工作中hive算是主要部分之一,一直想写个关于hive学习的系列,但是由于听大神说hive过于简单,自己在工作中也没遇到太大的障碍,所以一直未动笔。但随着工作的进行发现自己对于的hive的诸多基础知识和细节并没有完全掌握,也是写给所有初学hive的学友,一起学习探讨进步。
就现在我的认知来说,hive就是用来开发sql脚本用于MapReduce处理结构化数据。这里简单的说下hadoop,hadoop是一个开源框架用来在分布式环境中,存储和处理大型数据。什么是分布式呢,我理解为就是能拆分。而hadoop的分布式具体可以表现为对于文件存储的分布(hadoop中所有数据以文件形式存储),以及对于数据处理的分布。这也就很好的解释了hadoop框架中的两大模块:HDFS(Hadoop Distributed File System)即分布式文件管理系统和MapReduce(一种面向大规模数据集的并行运算技术)。
总的来说写hive和写sql没什么太大的区别,也比较简单,要说区别主要是一些函数的不同。关于hive的函数在后续的学习中会列出来一些常用的与大家分享。下面是在网上学习中看到的关于hive工作原理的比较好的的讲解。


hive的架构

这里写图片描述

最上面一层是用户接口/界面:Hive是一个数据仓库基础工具软件,可以创建用户和HDFS之间互动。用户界面,Hive支持是Hive的Web UI,Hive命令行,HiveHD洞察(在Windows服务器)。

Meta Store:hive的元数据库,Hive选择各自的数据库服务器,用以储存表,数据库,列模式或元数据表,它们的数据类型和HDFS映射。

Hive QL Process Engine:HiveQL处理引擎,HiveQL类似于SQL的查询上Metastore模式信息。这是传统的方式进行MapReduce程序的替代品之一。相反,使用Java编写的MapReduce程序,可以编写为MapReduce工作,并处理它的查询。

Execution Engine:执行引擎,HiveQL处理引擎和MapReduce的结合部分是由Hive执行引擎实现。执行引擎处理查询并产生结果和MapReduce的结果一样。它采用MapReduce方法。

最下面一层是HDFS 或 HBASE,Hadoop的分布式文件系统或者HBASE数据存储技术是用于将数据存储到文件系统。


hive的工作原理

这里写图片描述

1.Execute Query
Hive接口,如命令行或Web UI发送查询驱动程序(任何数据库驱动程序,如JDBC,ODBC等)来执行。

2.Get Plan
在驱动程序帮助下查询编译器,分析查询检查语法和查询计划或查询的要求。

3.Get Metadata
编译器发送元数据请求到Metastore(任何数据库)。

4.Send Metadata
Metastore发送元数据,以编译器的响应。

5.Send Plan
编译器检查要求,并重新发送计划给驱动程序。到此为止,查询解析和编译完成。

6.Execute Plan
驱动程序发送的执行计划到执行引擎。

7.Execute Job
在内部,执行作业的过程是一个MapReduce工作。执行引擎发送作业给JobTracker,在名称节点并把它分配作业到TaskTracker,这是在数据节点。在这里,查询执行MapReduce工作。

7.1Metadata Ops
与此同时,在执行时,执行引擎可以通过Metastore执行元数据操作。

8.Fetch Result
执行引擎接收来自数据节点的结果。

9.Send Results
执行引擎发送这些结果值给驱动程序。

10.Send Results
驱动程序将结果发送给Hive接口。

原创粉丝点击