hadoop之Hbase

来源:互联网 发布:分别采用sjf调度算法 编辑:程序博客网 时间:2024/06/06 01:49

Hbase就是Hadoop database,是一个分布式的、面向列的开源数据库。

Hbase与与传统的mysql、oracle究竟有什么差别。即列式数据与行式数据由什么区别。NoSql数据库与传统关系型数据有什么区别:

Hbase VS Oracle

     1、  Hbase适合大量插入同时又有读的情况。输入一个Key获取一个value或输入一些key获得一些value。

     2、  Hbase的瓶颈是硬盘传输速度。Hbase的操作,它可以往数据里面insert,也可以update一些数据,但update的实际上也是insert,只是插入一个新的时间戳的一行。Delete数据,也是insert,只是insert一行带有delete标记的一行。Hbase的所有操作都是追加插入操作。Hbase是一种日志集数据库。它的存储方式,像是日志文件一样。它是批量大量的往硬盘中写,通常都是以文件形式的读写。这个读写速度,就取决于硬盘与机器之间的传输有多快。而Oracle的瓶颈是硬盘寻道时间。它经常的操作时随机读写。要update一个数据,先要在硬盘中找到这个block,然后把它读入内存,在内存中的缓存中修改,过段时间再回写回去。由于你寻找的block不同,这就存在一个随机的读。硬盘的寻道时间主要由转速来决定的。而寻道时间,技术基本没有改变,这就形成了寻道时间瓶颈。

     3、  Hbase中数据可以保存许多不同时间戳的版本(即同一数据可以复制许多不同的版本,准许数据冗余,也是优势)。数据按时间排序,因此Hbase特别适合寻找按照时间排序寻找Top n的场景。找出某个人最近浏览的消息,最近写的N篇博客,N种行为等等,因此Hbase在互联网应用非常多。

     4、  Hbase的局限。只能做很简单的Key-value查询。它适合有高速插入,同时又有大量读的操作场景。而这种场景又很极端,并不是每一个公司都有这种需求。在一些公司,就是普通的OLTP(联机事务处理)随机读写。在这种情况下,Oracle的可靠性,系统的负责程度又比Hbase低一些。而且Hbase局限还在于它只有主键索引,因此在建模的时候就遇到了问题。比如,在一张表中,很多的列我都想做某种条件的查询。但却只能在主键上建快速查询。所以说,不能笼统的说那种技术有优势。

     5、 Oracle是行式数据库,而Hbase是列式数据库。列式数据库的优势在于数据分析这种场景。数据分析与传统的OLTP的区别。数据分析,经常是以某个列作为查询条件,返回的结果也经常是某一些列,不是全部的列。在这种情况下,行式数据库反应的性能就很低效。

      行式数据库:Oracle为例,数据文件的基本组成单位:块/页。块中数据是按照一行行写入的。这就存在一个问题,当我们要读一个块中的某些列的时候,不能只读这些列,必须把这个块整个的读入内存中,再把这些列的内容读出来。换句话就是:为了读表中的某些列,必须要把整个表的行全部读完,才能读到这些列。这就是行数据库最糟糕的地方。

      列式数据库:是以列作为元素存储的。同一个列的元素会挤在一个块。当要读某些列,只需要把相关的列块读到内存中,这样读的IO量就会少很多。通常,同一个列的数据元素通常格式都是相近的。这就意味着,当数据格式相近的时候,数据就可以做大幅度的压缩。所以,列式数据库在数据压缩方面有很大的优势,压缩不仅节省了存储空间,同时也节省了IO。(这一点,可利用在当数据达到百万、千万级别以后,数据查询之间的优化,提高性能,示场景而定)



这里有一些常使用的Hbase shell命令:

名称 命令表达式创建表create '表名称', '列名称1','列名称2','列名称N'添加记录      put '表名称', '行名称', '列名称:', '值'查看记录get '表名称', '行名称'查看表中的记录总数count  '表名称'删除记录delete  '表名' ,'行名称' , '列名称'删除一张表先要屏蔽该表,才能对该表进行删除,第一步 disable '表名称' 第二步  drop '表名称'查看所有记录scan "表名称"  查看某个表某个列中所有数据scan "表名称" , ['列名称:']更新记录 就是重写一遍进行覆盖


1、建立一个表格 scores 具有两个列族grad 和courese案例如下:

hbase(main):002:0> create 'scores', 'grade', 'course'
0 row(s) in 4.1610 seconds

2、查看当先HBase中具有哪些表

hbase(main):003:0> list
scores
1 row(s) in 0.0210 seconds

3、查看表的构造

hbase(main):004:0> describe 'scores'
{NAME => 'scores', IS_ROOT => 'false', IS_META => 'false', FAMILIES => [{NAME => 'course', BLOOMFILTER => 'false', IN_MEMORY => 'false', LENGTH => '2147483647', BLOCKCACHE => 'false', VERSIONS => '3', TTL => '-1', COMPRESSION => 'NONE'}, {NAME => 'grade', BLOOMFILTER => 'false', IN_MEMORY => 'false', LENGTH => '2147483647', BLOCKCACHE => 'false', VERSIONS => '3', TTL => '-1', COMPRESSION => 'NONE'}]}
1 row(s) in 0.0130 seconds

4、 加入一行数据,行名称为 Tom 列族grad的列名为”” 值位1

hbase(main):005:0> put 'scores', 'Tom', 'grade:', '1'
0 row(s) in 0.0070 seconds

5、给Tom这一行的数据的列族添加一列 <math,89>

hbase(main):006:0> put 'scores', 'Tom', 'course:math', '89'
0 row(s) in 0.0040 seconds

6、给Tom这一行的数据的列族添加一列 <english,97>

hbase(main):007:0> put 'scores', 'Tom', 'course:english', '97'
0 row(s) in 0.0030 seconds


7、 加入一行数据,行名称为 Jerry 列族grad的列名为”” 值位2

hbase(main):008:0> put 'scores''Jerry''grade:''2'
0 row(s) in 0.0040 seconds

8、给Jerry这一行的数据的列族添加一列 <math,100>

hbase(main):009:0> put 'scores', 'Jerry', 'course:math', '100'
0 row(s) in 0.0030 seconds


9、给Jerry这一行的数据的列族添加一列 <english,90>

hbase(main):010:0> put 'scores', 'Jerry', 'course:english', '90'
0 row(s) in 0.0050 seconds

10、查看scores表中Tom的相关数据

hbase(main):011:0> get 'scores', 'Tom'
COLUMN                       CELL
 course:english                  timestamp=1224726394286, value=97
 course:math                 timestamp=1224726377027, value=89
 grade:                      timestamp=1224726360727, value=1
3 row(s) in 0.0070 seconds



11、判断表是否enable

hbase(main):012:0>is_enabled 'scores'
true
0 row(s) in 0.0110seconds

12、判断表是否disable

hbase(main):013:0>is_disabled 'scores'
false
0 row(s) in 0.0110seconds

13、删除表scores

hbase(main):014:0>disable 'scores'
0 row(s) in 2.0590seconds
 
hbase(main):030:0>drop 'scores'
0 row(s) in 1.1070seconds


14、查询表是否存在

hbase(main):015:0>exists 'scores'
Table scores doesexist                                                     
0 row(s) in 0.1610seconds


15、查看scores表中所有数据

hbase(main):016:0> scan 'scores'
ROW                          COLUMN+CELL
 Tom                         column=course:english, timestamp=1224726394286, value=97
 Tom                         column=course:math, timestamp=1224726377027, value=89
 Tom                         column=grade:, timestamp=1224726360727, value=1
 Jerry                        column=course:english, timestamp=1224726424967, value=90
 Jerry                        column=course:math, timestamp=1224726416145, value=100
 Jerry                        column=grade:, timestamp=1224726404965, value=2
6 row(s) in 0.0410 seconds

16、查看scores表中所有数据courses列族的所有数据

hbase(main):017:0> scan 'scores', ['course:']
ROW                          COLUMN+CELL
 Tom                         column=course:english, timestamp=1224726394286, value=97
 Tom                         column=course:math, timestamp=1224726377027, value=89
 Jerry                        column=course:english, timestamp=1224726424967, value=90
 Jerry                        column=course:math, timestamp=1224726416145, value=100
4 row(s) in 0.0200 seconds

0 0