hbase功能原理简述

来源：互联网发布：centos 732位下载编辑：程序博客网时间：2024/04/30 01:47

一. 架构

1. 数据模型

1.1 基础概念

表(table)：列式存储，支持高表&宽表(上亿行，上百万列)
行(row)：每一行由唯一的行键确定
列族(columnFamily)：每一行包含一个或多个列族，是列的集合
列(column)：列式存储，列是最基本单位，可能有多个版本的值
时间戳(Timestamp)：列的不同版本之间用时间戳区分
单元格(cell)：列的每一个版本是一个单元格，是存储的基本单位

HBase最基本的单位是列（column），一列或者多列形成一行（row），若干行数据组成了一张表（table）。听起来是一个非常普通的列式存储数据库，但是，它和传统数据库有很大的不同。

1.2 与传统数据库的区别

a. HBase的每一行由唯一的行键确定

在某种程度上，行键相当于传统数据库的primary key，区别在于，primary key是可选的，而HBase的每张表都必然会有行键。除了行键之外，HBase表不能对列添加索引。HBase是一个<key, value>形式的数据库，行键就是它的key。

b. HBase引入了列族(columnFamily)的概念

HBase是一个列式存储的数据库，因此列的使用是非常灵活的，不必在表定义的时候就定好列名，但是必须在建表的时候定义好列族名字。
一张HBase表存储的列的数量可以是无限的，但是列族的数量最好控制在2-3个（原因在备注中^[1]）
列必须属于某个列族，不同列族之间可以有同名列
列族的作用是，将那些数据量和属性相似的列聚集在一起，以便我们给这些列定义一些共同的存储方式属性(e.g. 数据压缩，保存到读缓存中)

c. HBase的列值可以有多版本

在HBase表中，行键、列族、列名和时间戳才能唯一确定一个值。每个值是一个单元格(cell)，是存储的基本单位。每一行数据的每一列，都可以存储多个值，每个版本的值之间通过时间戳确定，在存储的时候，这些值也按照时间戳逆序排列，保证客户端永远读到最新的数据。但是，每个列族可以存储的最大版本数是确定的，并且是在建表的时候就定义好的。

另外，单元格的时间戳是可以由用户自行指定的，如果不指定，服务器就会将接收到写请求的服务器时间作为单元格的时间戳。通常情况下，最好不要自己指定时间戳，因为客户端总是难以保证，指定的时间戳是按照写顺序递增的。

d. 反范式化

HBase是一个NoSQL(Not-only-SQL)数据库，不提供复杂的查询方式，包括join。另外，相对于MySQL，HBase的可扩展性很好，存储资源要廉价很多。因此，在设计数据库的时候，我们总是倾向于反范式化，以方便后期的数据查询。

1.3 数据模型抽象

HBase实际上是按照谷歌的bigtable实现的，而谷歌在bigtable论文的开篇就介绍了bigtable的特点：A Bigtable is a sparse, distributed, persistent multidimensional sorted map。所以HBase在本质上，是一张有序的多维map，数据模型可以抽象成：

<rowKey : columnFamily : qualifier : timestamp, value>

这样的优点是，HBase只存储有值的单元格，对于一张稀疏表来说，可以节省很多存储空间；但是，为每个cell都存储了rowKey, columnFamily, qualifier，因此cf的名字不要太长。

2. 存储模型

存储模型

2.1 存储概览

a. 数据分片存储

在HBase中，一张表的数据会被分成几份，每一份数据为一个region；每个region内存储的key是连续范围内的，不同region存储的key范围不重合；这些region可能被存储在同一台机器上，也可能存储在不同的机器上。HBase作为一个分布式数据库，对数据进行分片，可以提升吞吐量。

b. HLog：Write-Ahead-Log，写操作先写日志

HLog的作用是，当一台regionServer crash了，可以利用HLog来恢复内存中未持久化到硬盘中的数据。需要注意的是，同一台server上的所有region共用一个HLog实例，因为假如每个region拥有一个独立的HLog，服务器会花费很多时间在磁盘寻道上。

c. MemStore：写缓存，每个store拥有独立的写缓存

在HBase中，所有的写操作全部写到内存中，当写缓存（MemStore）写满，再刷写（flush）到磁盘中^[2]，形成一个新的文件。这样做的目的，是为了高速响应那些写请求。

d. HFile：磁盘文件

在存储上，HBase完全依赖HDFS，磁盘操作是直接调用HDFS的API（HDFS在维持data locality这一点上足够智能）。另外，之前提过HBase定义列族的一个原因是为了方便存储，事实上，同一列族的数据会被写到同一文件，因为存储特性本来就是按照列族定义的。HBase的数据在底层文件中时以KeyValue键值对的形式存储的，HBase没有数据类型，HFile中存储的是字节，这些字节按字典序排列。

e. 读缓存：同一server上所有region共用

既然HBase有写缓存，相对应的应该有读缓存。与写缓存不同的是，HBase的读缓存是同一server上的所有region共用的。当HBase读取磁盘上某一条数据时，HBase会将整个HFile block^[3]读到cache中^[4]。因此，当client请求临近的数据时，因为临近数据已经被缓存到内存中，HBase的响应会更快，也就是说，HBase鼓励将那些相似的，会被一起查找的数据存放在一起。另外，当我们在做全表扫描时，为了不刷走读缓存中的热数据，千万记得关闭读缓存的功能。

2.2 行键的索引

a. 行数据查找步骤

hbase:meta表查找，获取数据所在的region id
根据region id，到对应的region server上查找，在server上查找对应记录时，有三种方式
(1) 扫描缓存
(2) 块索引
(3) 布隆过滤器

b. rowKey索引：hbase:meta表

client会首先获取hbase:meta表的位置，再到对应的region server上读取这张表的内容（hbase:meta表其实就是一张HBase表）。读到这张hbase:meta表之后，client会缓存这张表，这张之后的查找就可以复用了。hbase:meta表的内容如下：

| key                                                               | value                                                                               || ----------------------------------------------------------------- | ------------------------------------------------------------------------------------||                                                                   | info:regioninfo (serialized HRegionInfo instance for this region)                   || Region key of the format ([table],[region start key],[region id]) | info:server (server:port of the RegionServer containing this region)                ||                                                                   | info:serverstartcode (start-time of the RegionServer process containing this region)|

因此，通过查找hbase:meta表，client可以得知对应的数据存储在哪台server的那个region上，接下来就要到对应的server上查找相关数据了。

c. region server上的数据查找

当接收到一个读请求，server会初始化一个scanner查找内存中是否有相关数据；一个scanner查找硬盘文件中是否存储了相关数据。查找硬盘文件是一件相当繁重的体力活，为了加快文件查找，HBase借助了两个工具：块索引和布隆过滤器。

块索引和布隆过滤器

d. rowKey索引：块索引

块索引存储在HFile文件中的末端，当HBase在查找文件中是否保存了目标数据时，首先会将块索引读入内存。因为HFile中的KeyValue字节数据，是按照字典序排列的，而块索引存储了文件中所有块（HFile block）的起始key，因此可以根据块索引迅速定位需要查找的块，只将可能保存了目标数据的块读到内存中，能加快查找速度。

e. rowKey索引：布隆过滤器

虽然块索引帮助减少了需要读到内存中的数据，我们依然需要查找每个文件中的一个块，才能完成磁盘数据查找，而布隆过滤器则可以帮助我们跳过那些显然不包含目标数据的文件。因为布隆过滤器的特点是，能迅速判断一个数据集合中包不包含目标数据，判断结果有两种，不包含和可能包含。如下图所示，布隆过滤器能帮助跳过一些肯定不包含目标数据的文件。

布隆过滤器

和块索引一样，布隆过滤器也被存储在文件末端，会被优先加载到内存中。另外，布隆过滤器分行式和列式两种，列式需要更多的存储空间，因此如果是按行读取数据，没必要使用列式的布隆过滤器。布隆过滤器和块索引的对比如下：

块索引布隆过滤器快速定位记录在文件中可能的位置快速判断文件中是否包含相应记录

2.3 将随机写转化成顺序写

HBase的存储是完全基于HDFS的，而HDFS的特点是不能对磁盘文件进行随机修改。因此，HBase无法对已写入磁盘文件的表记录进行随机修改，但是对于数据库来说，支持对表记录进行随机修改是基本功能。为此，HBase的方法是将随机写的操作转化成顺序写。

首先，随机的写操作转化为文件追加操作，按照时间顺序排列，client读数据时总是优先读到最新的修改。而删除操作则转化为写入一个tombstone标记，标记着早于这个tombstone时间戳的对应行所有记录作废。

显然，因为HBase总是进行文件追加，随着时间积累，文件膨胀很快。major compact的一个作用就是，真正删除所有无效的过时数据。

2.4 HBase Compaction和Region Split

a. HBase Compaction

前面已经提到过，HBase数据写入的时候，总是先写入到写缓存（MemStore）中，当写缓存写满，则flush到磁盘形成一个新的磁盘文件。可以想象的是，随着时间增长，磁盘上这样的小文件会越来越多，HBase查找数据也需要越来越长的时间。为了避免这样的问题，HBase会做compaction，合并HFile文件，减少每次查找数据的磁盘寻道时间。compaction分为major compact和minor compact两种：

Minor compact：将多个小文件简单合并成一个大文件
Major compact：将同一列族的所有文件合并成一个大文件，并且删除过期无效的数据和tombstone标记[5]

b. Region Split

client不断向HBase写入数据，region管理的数据量不断膨胀。当一个region内存储的数据量到达阈值，则会触发HBase的region split操作，将老的region拆分成两个新的子region。拆分的原则是数据量对半分。为了避免region拆分导致的IO瞬时上升，region拆分并不会立刻将拆分重写所有的磁盘文件文件，而是为每个子region创建reference文件，这些文件指向了旧的磁盘文件中对应记录的起始和终止位置。等到子region的compact操作被触发，在重写文件的时候，HBase才会为每个子region生成独立的磁盘文件。

3. 物理模型

物理模型

HBase的架构是一个典型的master-slave模型，HBase的master节点叫HMaster，slave节点就是RegionServer。

3.1 Master的职责

处理集群相关的请求（来自client或者其他server节点）

建表或者表变更的操作
打开或者关闭一个region
metadata元数据的管理

集群监控（依赖Zookeeper）

监控regionServer的状态以及负载均衡等
跟踪hbase:meta表的位置
后备master节点需要监控当前master节点是否活跃

3.2 RegionServer的职责

集群初始化过程中

当一个HBase集群起来之后，HMaster会在对应的regionServer上起一个HRegionServer进程。HRegionServer负责打开对应的region，并创建对应的HRegion实例。当HRegion打开之后，它会为每个表的HColumnFamily创建一个Store实例，ColumnFamily是用户在创建表时定义好的，ColumnFamily在每个region中和Store实例一一对应。每个Store实例包含一个或者多个StoreFile实例，StoreFile是对实际存储数据文件HFile的轻量级封装。每个Store对应一个MemStore。一个HRegionServer共享一个HLog实例。

集群运行过程中

compaction和split是由RegionServer独立判断决定是否执行的，但过程中包含一些必要的和master、ZK的通信
client端发起的读写请求，也直接由对应RegionServer处理（master不处理）[6]，流程如下：
(1) client端向ZK请求hbase:meta表位置，取得表内容
(2) 查询meta表得知数据存在哪台RegionServer上
(3)直接与RegionServer通信，进行读写操作

注：
[1] 同一张表的column family数量不能超过2-3个。因为目前，flush和compaction操作是基于region进行的，当一个column family触发了MemStore flush操作，相邻的column family都会被刷写到磁盘，即使它们MemStore内的数据量还很小。因此，如果同一张表内column family的数量过多，flush和compaction将会带来更多不必要的I/O负载（当然这个问题可以通过，将flush和compaction改成列族之间互不影响来解决）。通常情况下，定义表的时候尽量使用单列族，除非列与列的查询是相对独立的，再考虑使用多个列族，比如client并不会同时请求两个列族的数据。
当同一张内有多个列族时，注意一些列族间的数据量是否一致，假如列族A和列族B的数据量相差悬殊，列族A的大数据量会导致表数据被分片到很多个机器上，此时再对列族B的数据做扫描，效率会很低。

[2] 能触发MemStore flush操作的有三种情形：

当一个MemStore的数据量达到hbase.hregion.memstore.flush.size，同一region的所有MemStore的数据都会被刷写道磁盘
当全部的MemStore的数据量达到hbase.regionserver.global.memstore.upperLimit，同一RegionServer的多个region的MemStore的数据会被刷写到磁盘。按照每region的MemStore大小，从大到小刷写到磁盘，直到总的MemStore大小下降到hbase.regionserver.global.memstore.upperLimit
当region server的WAL的log数量达到hbase.regionserver.max.logs，该server上多个region的MemStore会被刷写到磁盘（按照时间顺序），以降低WAL的大小。

[3] HFile block：HFile块和Hadoop块是两个独立的概念。HFile块的默认大小是64KB，而Hadoop块的默认大小为64MB。另外，如果有需要的话，用户还可以自行定义HFile块大小。一般情况下，如果客户端都是顺序访问表记录，在读缓存的作用下，建议使用较大的HFile块；如果客户端都是随机访问表记录，建议使用较小的HFile块，不过也需要更多的内存来存储块索引（块索引会优先存放在cache中），并且创建过程也会变得更慢，因为我们必须在每个数据块结束的时候刷写压缩流，导致一个FS I/O刷写。

[4] 关于读缓存的更详细资料：http://zh.hortonworks.com/blog/hbase-blockcache-101/

[5] HBase默认每7天对HBase做一轮major compact，在0.96的版本之前，这个周期是1天。

[6] 正因为client读写数据的过程没有master节点的参与，如果master failover了，hbase集群仍然可以稳定运行一段时间，只是像region分裂，RegionServer failover处理等需要master节点参与的工作，无法完成了。

阅读全文

0 0