Hive原理
来源:互联网 发布:tensorflow 量化流程 编辑:程序博客网 时间:2024/06/05 12:48
Point 1:
结构化数据:有具体的列和行,并且代表什么具体的含义,相当于一张表—mysql
非结构化数据:没有具体的行和列,完全没有规律——–nosql
Point 2:什么是Hive?
Hive:hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。
Point 3:Hive的优点
其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
Point 4:
Hive的架构:
解释器(翻译器)—————将Hive 语句转换为MapReduce程序
编译器————————–将转换后的MapReduce程序达成jar包
优化器————————–提交jar包,执行程序
Point 5:什么是映射数据?
Hive的使用需要有一个映射数据库,需要永久保存(所以借鉴了一个关系型数据库—RDBMS—元数据),将HDFS的数据映射在HIVE,而元数据还是存放在原平台上,HIVE和RDBMS可以不在一台机器上
Point 6:
Hive的底层(进口)可以存储各种数据,包括结构化数据和非结构化数据,因为Hive只是一个仓库,用于存储,当需要某数据的时候,只需要一条SQL语句对出口查询
Point 7:
HIVE不存在要分析的目标数据,而是存在底层,比如Hadoop,借助HDFS进行存储
Point 8:
HIVE是一个工具,不是一个服务,不存在HA
阅读全文
0 0
- Hive原理
- Hive原理
- Hive原理
- Hive原理
- hive原理
- Hive原理
- Hive学习1:Hive原理
- hive join原理
- Hive原理与不足
- Hive原理与不足
- hive原理学习
- Hive 工作原理
- Hive的原理
- hive join原理
- Hive原理与不足
- spark on hive原理
- Hive原理--体系结构
- Hive运行原理
- o割绳子
- The server time zone value '�й���ʱ��' is unrecognized or represents more than one time zone. You mu
- imx6ul之OpenWRT中的移动存储设备挂载与结项
- 资源属性解释
- Android权限之三共享UID和签名
- Hive原理
- CommonJS及AMD模块化编程
- 如何把 <li> 标签种的 <a> 设置成和<li>一样大,并且把<li>覆盖在下面。
- ROP绕过DEP和ALSR 64位
- Android截屏与WebView长图分享经验总结
- Python使用管道(pipe)协同标准输入输出流使程序通信
- Android菜鸟的成长笔记(6)——剖析源码学自定义主题Theme
- bzoj1111: [POI2007]四进制的天平Wag
- WinDbg抓取程序报错dump文件的方法