Hive原理

来源：互联网发布：tensorflow 量化流程编辑：程序博客网时间：2024/06/05 12:48

Point 1：
结构化数据：有具体的列和行，并且代表什么具体的含义，相当于一张表—mysql
非结构化数据：没有具体的行和列，完全没有规律——–nosql

Point 2：什么是Hive？
Hive：hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。

Point 3：Hive的优点
其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

Point 4：
Hive的架构：
解释器（翻译器）—————将Hive 语句转换为MapReduce程序
编译器————————–将转换后的MapReduce程序达成jar包
优化器————————–提交jar包，执行程序

Point 5：什么是映射数据？
Hive的使用需要有一个映射数据库，需要永久保存（所以借鉴了一个关系型数据库—RDBMS—元数据），将HDFS的数据映射在HIVE，而元数据还是存放在原平台上，HIVE和RDBMS可以不在一台机器上

Point 6：
Hive的底层（进口）可以存储各种数据，包括结构化数据和非结构化数据，因为Hive只是一个仓库，用于存储，当需要某数据的时候，只需要一条SQL语句对出口查询

Point 7：
HIVE不存在要分析的目标数据，而是存在底层，比如Hadoop，借助HDFS进行存储

Point 8：
HIVE是一个工具，不是一个服务，不存在HA

阅读全文

0 0