程序博客网 > 万网域名

[HBase] 体系架构（物理模型）

来源：互联网发布：万网域名编辑：程序博客网时间：2024/05/22 10:56

Client

--包含访问HBase的接口并维护cache，加快对HBase的访问

Zookeeper

–保证任何时候，集群中只有一个master

–存贮所有Region的寻址入口。

–实时监控Region server的上线和下线信息。并实时通知给Master

–存储HBase的schema和table元数据

Master

–为Region server分配region

–负责Region server的负载均衡

–发现失效的Region server并重新分配其上的region

–管理用户对table的增删改查操作

RegionServer

–Region server维护region，处理对这些region的IO请求

–Region server负责split在运行过程中变得过大的region

ZooKeeper存储所有Region的入口，Client通过访问它获得-ROOT-表的的location信息，接着通过-ROOT-表获得.META.表Region信息，最后再通过.META.表获得用户表的Region信息。Client会缓存这些信息，这样下次就可以直接获得用户表的Region信息。

如上图所示，当Client连上HReigonServer后，后者会打开相应的HRegion对象，为每个HColumeFamily创建Store实例，每个Store实例有一个MemStore，一个或多个StoreFile，StoreFile是HFile轻量级的包装。

1 写数据过程

首先是把Log写入到HLog中，HLog是标准的Hadoop Sequence File，由于Log数据量小，而且是顺序写，速度非常快；同时把数据写入到内存MemStore中，成功后返回给Client，所以对Client来说，HBase写的速度非常快，因为数据只要写入到内存中，就算成功了。

接着检查MemStore是否已满，如果满了，就把内存中的MemStore Flush到磁盘上，形成一个新的StoreFile。

当Storefile文件的数量增长到一定阈值后，系统会进行合并（Compact），在合并过程中会进行版本合并和删除工作，形成更大的storefile。

当Storefile大小超过一定阈值后，会把当前的Region分割为两个（Split），并由Hmaster分配到相应的HRegionServer，实现负载均衡

2 读数据过程

由于无法直接修改HBase里的数据，所有的update和delete操作都转换成append操作，而且HBase里也没有索引，因此读数据都是以Scan的方式进行。

Client在读数据时，一般会指定timestamp和ColumnFamily.

首先，根据ColumnFamily可以过滤掉很大一部分Store，这也是HBase作为列式数据库的一大优势。

然后，根据timestamp和Bloom Filter排除掉一些StoreFiles

最后，在剩下的StoreFile （包含MemStore）里Scan查找

万网域名

万网域名

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子七个月的宝宝老是拉肚子怎么办 6个月宝宝拉肚子怎么办没满月宝宝吐奶怎么办八个月宝宝有点拉肚子怎么办 4个月宝宝拉水怎么办 2岁宝宝消化不好拉肚子怎么办两岁宝宝老拉肚子怎么办 2岁宝宝拉肚子老不好怎么办 2岁宝宝一直拉肚子不好怎么办 5天新生儿拉稀水怎么办 4天新生儿拉稀水怎么办新生儿40天拉稀水怎么办一周多的宝宝拉肚子怎么办出生半个月的宝宝拉肚子怎么办刚出生几天的宝宝拉肚子怎么办刚出生的宝宝拉肚子怎么办出生八天的宝宝拉肚子怎么办刚出生婴儿拉水怎么办三岁宝宝一直吐怎么办 3岁宝宝一直吐怎么办 5个月宝宝一直吐怎么办新生儿睡反了觉怎么办吃母乳奶流量大怎么办两个月宝宝有痰怎么办婴儿瞌睡睡倒了怎么办侧切伤口崩开了怎么办脐带30天未脱落怎么办洗眉结痂不掉怎么办新生宝宝生殖器下面破皮怎么办脐带未脱落渗血怎么办车停店门口贴发单怎么办有人要打我我该怎么办很笨怎么办工作做不好脸被电焊烤了疼怎么办脸过敏痒的不行怎么办领导想让你辞职怎么办领导强吻我了怎么办赫曼夏天温度高怎么办近视看3d电影怎么办有声挂图撕坏了怎么办主机没有放光盘的设备怎么办