初识Hive

来源:互联网 发布:youtube dl mac 编辑:程序博客网 时间:2024/06/06 00:41

目录

  • 目录
  • Hive简介
  • Hive与HBASE的关系
  • Hive与RDBMS的关系
  • 数据库与数据仓库
    • 数据库相关概念
    • 数据仓库相关概念
    • 数据仓库体系结构
    • 数据仓库的基本特征
    • 数据库与数据仓库比较

1 Hive简介

  • Hive是一个构建在Hadoop上的数据仓库平台,其设计目标是使hadoop上的数据操作与传统SQL结合,让熟悉SQL编程的开发人员能够轻松向Hadoop平台转移
  • 优缺点:
    Hive不是一个完整的数据库。Hadoop以及hdfs的设计本身约束和局限性地限制了hive所能胜任的工作。Hive不支持记录级别的更新、插入和删除操作。但是用户可以通过查询生成新表或者将查询结果导入到文件中。同事,因为Hadoop是一个面向批处理的系统,而mapreduce任务(job)的启动过程需要消耗较长的时间,所以hive查询延时比较严重。传统数据库中在秒级可以完成的查询,在hive中,即时数据集相对较小,往往也需要执行更长的时间。最后,需要说明的是,hive不支持事务。
    • hive不支持记录级别的更新、插入和删除操作
    • hive查询延时比较严重
    • hive不支持事务
      由于Hadoop本身的时间开销很大,并且Hadoop所被设计用来处理的数据规模非常大,因此提交查询和返回结果是可能具有非常大的延时的,所以hive并不能满足OLAP的“联机”部分,至少目前并没有满足。如果用户需要对大规模数据使用OLTP功能的话,那么应该选择使用一个NOSQL数据库。例如,和Hadoop结合使用的HBase及Cassandra.
  • Hive是最适合数据仓库应用程序的,其可以维护海量数据,而且可以对数据进行挖掘,然后形成意见和报告等。
  • hive官网: http://hive.apache.org

2 Hive与HBASE的关系

  • Hive是基于Hadoop的一个数据仓库工具,是为简化编写MapReduce程序而生的,Hive十分适合数据仓库的统计分析。
  • HBase是一个分布式的、面向列的开源数据库,它是一个适合于非结构化数据存储的数据库。

3 Hive与RDBMS的关系

这里写图片描述

4 数据库与数据仓库

数据库相关概念

  • 数据
    • 数据是通过物理观察而来的事实和概念,是对现实世界的地方、事件或其他对象的事实描述
  • 数据库技术
    • 研究如何科学管理和组织存储数据
  • 数据库管理系统(DBMS)
    • 是数据管理的必然产物,数据管理方法经历了人工管理阶段,文件系统阶段和数据库管理阶段

数据仓库相关概念

  • 数据仓库(DW)
    • 是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。

数据仓库体系结构

这里写图片描述

数据仓库的基本特征

  • 面向主题
  • 数据的集合性
  • 相对稳定性
  • 随时间而改变
  • 数据模型

数据库与数据仓库比较

二者的联系:
数据仓库的出现,并不是要取代数据库。大部分数据仓库还是用关系数据库管理系统来管理的。可以说,数据库、数据仓库相辅相成、各有千秋。[4]
二者的区别:
1、出发点不同:数据库是面向事务的设计;数据仓库是面向主题设计的。
2、存储的数据不同:数据库一般存储在线交易数据;数据仓库存储的一般是历史数据。
3、设计规则不同:数据库设计是尽量避免冗余,一般采用符合范式的规则来设计;数据仓库在设计是有意引入冗余,采用反范式的方式来设计。
4、提供的功能不同:数据库是为捕获数据而设计,数据仓库是为分析数据而设计,
5、基本元素不同:数据库的基本元素是事实表,数据仓库的基本元素是维度表。
6、容量不同:数据库在基本容量上要比数据仓库小的多。
7、服务对象不同:数据库是为了高效的事务处理而设计的,服务对象为企业业务处理方面的工作人员;数据仓库是为了分析数据进行决策而设计的,服务对象为企业高层决策人员。

0 0
原创粉丝点击