Hive原理

来源:互联网 发布:tensorflow 量化流程 编辑:程序博客网 时间:2024/06/05 12:48

Point 1:
结构化数据:有具体的列和行,并且代表什么具体的含义,相当于一张表—mysql
非结构化数据:没有具体的行和列,完全没有规律——–nosql

Point 2:什么是Hive?
Hive:hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。

Point 3:Hive的优点
其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

Point 4:
Hive的架构:
解释器(翻译器)—————将Hive 语句转换为MapReduce程序
编译器————————–将转换后的MapReduce程序达成jar包
优化器————————–提交jar包,执行程序

Point 5:什么是映射数据?
Hive的使用需要有一个映射数据库,需要永久保存(所以借鉴了一个关系型数据库—RDBMS—元数据),将HDFS的数据映射在HIVE,而元数据还是存放在原平台上,HIVE和RDBMS可以不在一台机器上

Point 6:
Hive的底层(进口)可以存储各种数据,包括结构化数据和非结构化数据,因为Hive只是一个仓库,用于存储,当需要某数据的时候,只需要一条SQL语句对出口查询

Point 7:
HIVE不存在要分析的目标数据,而是存在底层,比如Hadoop,借助HDFS进行存储

Point 8:
HIVE是一个工具,不是一个服务,不存在HA

原创粉丝点击