Greenplum入门——概览

来源:互联网 发布:wingware python ide 编辑:程序博客网 时间:2024/05/02 01:20

本文内容为博主阅读《Greenplum企业应用实战》的读书笔记,对书中主要知识点进行了归纳和梳理。有兴趣的同学可以买一本原书读一读。如果认为文中内容涉嫌侵权,请及时联系博主删除文章。


OLTP 与 OLAP

数据库系统分为两种。
- OLTP 面向前台应用,重吞吐和高并发
- OLAP 对大数据集进行统计分析,重计算

Greenplum属于OLAP

OLTP

OLTP 联机事务处理 On-Line Transaction Processing 系统也称为生产系统,事件驱动、面向应用。

基本特点:
- 数据在系统中产生
- 基于交易 Transaction-Based 的处理系统
- 每次交易牵涉的数据量小
- 对响应事件要求高
- 用户数量庞大,以操作人员为主
- 数据库的各种操作主要基于索引进行

OLAP

OLAP 联机分析处理 On-Line Analytical Processing基于数据仓库的信息分析处理过程,是数据仓库的用户接口部分。OLAP系统是库啊部门的、面向主题的

基本特点:
- 本身不产生数据,基础数据来源于生产系统中的操作数据 OperationalData
- 基于查询的分析系统
- 复杂查询经常使用多表连接、权标扫描,牵涉的数据量庞大
- 响应时间与具体查询有很大关系
- 用户数量相对较小,用户主要是业务人员与管理人员
- 由于业务问题不固定,数据库的各种操作不能完全基于索引进行

PostgreSQL与Greenplum的关系

PostgreSQL

PostgreSQL是 对象-关系型数据库管理系统 ORDBMS

Greenplum

本质上讲,Greenplum是一个关系型数据库集群,它实际上是由数个独立的数据库服务组合成的逻辑数据库。与Oracle RAC的Shared-Everything架构不同,Greenplum采用Shared-Nothing架构,整个集群由很多个数据节点 Segment Host 和控制节点 Master Host 组成,每个数据节点上可以运行多个数据库。

Shared-Nothing是一个分布式的架构,每个节点相对独立。在典型的Shared-Nothing中,每一个节点上所有的资源都是独立的,==每个节点都只有全部数据的一部分==,也只能使用本节点的资源。

在Greenplum中,需要存储的数据在进入数据库时,将先进行数据分布的处理工作,将一个表中的数据平均分不到每个节点上,并未每个表指定一个分发列 distribute Column,之后便根据Hash来分布数据。

Greenplum的特性及应用场景

特性

1. 支持海量数据存储和处理

2. 高性价比

3. 支持Just In Time BI(BI实时分析)

Greenplum通过准实时、实时的数据加载方式,实现数据仓库的实时更新,进而实现动态数据仓库 ADW

4.系统易用性

5. 支持线程扩展 Greenplum采用MPP并行处理结构

6.较好的并发支持及高可用性支持

7.支持MapReduce

8.数据库内部压缩

应用场景

在TB级的数据仓库的OLAP应用中Greenplum在易用性和性能方面有着很大的优势

原创粉丝点击