初识Hive
来源:互联网 发布:youtube dl mac 编辑:程序博客网 时间:2024/06/06 00:41
目录
- 目录
- Hive简介
- Hive与HBASE的关系
- Hive与RDBMS的关系
- 数据库与数据仓库
- 数据库相关概念
- 数据仓库相关概念
- 数据仓库体系结构
- 数据仓库的基本特征
- 数据库与数据仓库比较
1 Hive简介
- Hive是一个构建在Hadoop上的数据仓库平台,其设计目标是使hadoop上的数据操作与传统SQL结合,让熟悉SQL编程的开发人员能够轻松向Hadoop平台转移
- 优缺点:
Hive不是一个完整的数据库。Hadoop以及hdfs的设计本身约束和局限性地限制了hive所能胜任的工作。Hive不支持记录级别的更新、插入和删除操作。但是用户可以通过查询生成新表或者将查询结果导入到文件中。同事,因为Hadoop是一个面向批处理的系统,而mapreduce任务(job)的启动过程需要消耗较长的时间,所以hive查询延时比较严重。传统数据库中在秒级可以完成的查询,在hive中,即时数据集相对较小,往往也需要执行更长的时间。最后,需要说明的是,hive不支持事务。- hive不支持记录级别的更新、插入和删除操作
- hive查询延时比较严重
- hive不支持事务
由于Hadoop本身的时间开销很大,并且Hadoop所被设计用来处理的数据规模非常大,因此提交查询和返回结果是可能具有非常大的延时的,所以hive并不能满足OLAP的“联机”部分,至少目前并没有满足。如果用户需要对大规模数据使用OLTP功能的话,那么应该选择使用一个NOSQL数据库。例如,和Hadoop结合使用的HBase及Cassandra.
- Hive是最适合数据仓库应用程序的,其可以维护海量数据,而且可以对数据进行挖掘,然后形成意见和报告等。
- hive官网: http://hive.apache.org
2 Hive与HBASE的关系
- Hive是基于Hadoop的一个数据仓库工具,是为简化编写MapReduce程序而生的,Hive十分适合数据仓库的统计分析。
- HBase是一个分布式的、面向列的开源数据库,它是一个适合于非结构化数据存储的数据库。
3 Hive与RDBMS的关系
4 数据库与数据仓库
数据库相关概念
- 数据
- 数据是通过物理观察而来的事实和概念,是对现实世界的地方、事件或其他对象的事实描述
- 数据库技术
- 研究如何科学管理和组织存储数据
- 数据库管理系统(DBMS)
- 是数据管理的必然产物,数据管理方法经历了人工管理阶段,文件系统阶段和数据库管理阶段
数据仓库相关概念
- 数据仓库(DW)
- 是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。
数据仓库体系结构
数据仓库的基本特征
- 面向主题
- 数据的集合性
- 相对稳定性
- 随时间而改变
- 数据模型
数据库与数据仓库比较
二者的联系:
数据仓库的出现,并不是要取代数据库。大部分数据仓库还是用关系数据库管理系统来管理的。可以说,数据库、数据仓库相辅相成、各有千秋。[4]
二者的区别:
1、出发点不同:数据库是面向事务的设计;数据仓库是面向主题设计的。
2、存储的数据不同:数据库一般存储在线交易数据;数据仓库存储的一般是历史数据。
3、设计规则不同:数据库设计是尽量避免冗余,一般采用符合范式的规则来设计;数据仓库在设计是有意引入冗余,采用反范式的方式来设计。
4、提供的功能不同:数据库是为捕获数据而设计,数据仓库是为分析数据而设计,
5、基本元素不同:数据库的基本元素是事实表,数据仓库的基本元素是维度表。
6、容量不同:数据库在基本容量上要比数据仓库小的多。
7、服务对象不同:数据库是为了高效的事务处理而设计的,服务对象为企业业务处理方面的工作人员;数据仓库是为了分析数据进行决策而设计的,服务对象为企业高层决策人员。
0 0
- Hive 初识
- 初识Hive
- Hive 初识
- 初识Hive
- 初识Hive
- HIVE学习笔记:初识HIVE
- 初识hive UDF
- Hive笔记一:初识
- Hive初识功能架构
- Hive初识入门
- 初识Hive,Zookeeper
- 初识WINCE的HIVE注册表
- Hive学习笔记一:初识
- hadoop的数据仓库--Hive初识入门
- hadoop学习笔记--9.hive初识
- [Hadoop大数据]——Hive初识
- 初识Impala及与Hive对比
- 大数据企业学习篇03_1------hive 初识
- 浅析 int main(int argc, char *argv[])
- 架构中类的关系
- 动态链表--C语言实现
- android垃圾回收机制及程序优化System.gc
- 当@PathVariable遇上了"."
- 初识Hive
- 数学基本定理-----不可摸数-----HDOJ1999
- iOS UITextField输入字数提示以及判断输入字体类型
- jQuery源码分析15--迭代器
- Js 事件
- IIS HTTP 错误 404.17 - Not Found 解决方法
- 所有递归都可以改写成循环吗?
- null和''的区别
- iOS下的原型模式与非原型模式的效率比较