HBase基本知识

来源:互联网 发布:个人备案域名做淘宝客 编辑:程序博客网 时间:2024/06/12 05:33

HBase是参考google的bigtable的一个开源产品,建立在hdfs之上的一个提供高可靠性,高性能,列存储,可伸缩,实时读写的数据库系统。是一种介于nosql和RDBMS之间的一种数据库系统,仅支持通过rowkey和range进行数据的检索,主要存储非结构化数据和半结构化数据。

HBase和hadoop一样,目标是通过横向扩展,添加普通机器来增加存储性能和计算性能。HBase特点:大(一个表可以有上亿行以及百万级的行),面向列存储,稀疏(由于null不占用存储空间,所有表结果可以设计的非常稀疏)。

HBase使用Zookeeper进行集群节点管理,当然HBase自身集成一个ZK系统,不过一般情况在实际生产环境中不使用。HBase由master和regionserver两类节点(如果使用HBase自带的zk服务,那么还有HQuorumPeer进程)。HBase支持提供backup master进行master备份。其中master节点负责和zk进行通信以及存储regionserver的相关信息,regionserver节点实现具体对数据的操作,最终数据存储在hdfs上。

regionserver集群有很多region server,一般情况下一个region server就是一台机器,每个region server有很多region,每个region有很多store,每个store有memstore和storeFile,当内存中的文件太多,就会存去磁盘的storeFile,当文件数目增加,就会合并file,当太大了,又会分割,形成hdfs上面的hFile。


0 0