HBase之KeyValueScanner

来源:互联网 发布:算法竞赛入门经典 oj 编辑:程序博客网 时间:2024/06/14 15:42

一 首先我们看一下Key Value 是怎么在HFile上存储的


其中Key Length =Key的基础大小+Row Key Length+ Column Family

Length + Qualifier Length

 

Key的基础大小 = 存储rowkey length的大小 + 存储column family

Length的大小 + 存储TimeStamp的大小 + 存储Key类型的大小

= 2 + 1 + 8 + 1 = 12

 

二 各种类型的Scanner介绍


2.1 InternalScanner 和 KeyValueScanner区别

InternalScanner:我们可以获取一个KeyValue的List,KeyValueScanner

是一个可以向外迭出KeyValue的一个scanner,只能获取一个KeyValue

RegionScanner,StoreScanner,KeyValueHeap实现了InternalScanner

StoreScanner,MemStoreScanner,StoreFileScanner实现了KeyValueSca

Nner

 

2.2 如何组织一组相似或者相同的Scanner

一个RegionScanner是由一组StoreScanner组成的,一个StoreScanner是由一个MemStoreScanner和多个StoreFileScanner组成的,所有的scanners通过KeyValueHeap进行merge


成员变量heap: 是一个优先级队列,用来存储child scanners

 

2.3 如何从一个scanner转化为其他的scanner


优先级队列:

每一次从队列里选举一个scanner,使用之后又放回去,如果peek出来的next keyvalue是null,则表示已经scan完毕。所以我们应该关掉它,不需要把它放回去。选举出哪一个由以下的Comparator来决定:


Peek: 只是查看scanner下一个KeyValue,但是并不会迭代这个

Scanner。

一个StoreFileScanner切换到另外一个StoreFileScanner是很容易的,只要一个StoreFileScanner完成,并且关闭就可以切换到另一个StoreFileScanenr。

 

如何从StoreFile Scanner寻找一个给定KeyVaue?

This is the flow of seeking:


Figure 10 How toseek a KeyValue

 

总结所有的scanner,并寻找他们的关系:



KeyValueHeap: 这个类主要用于跨store或者跨storefile的merge工作,它是RegionScannerImpl和StoreScanner的成员变量。

RegionScannerImpl: 使用KeyValueHeap进行跨store的KeyValue的合并

StoreScanner: 使用KeyValueHeap进行memstore和storefile的合并

所以,我们也可以理解为KeyValueHeap是一个parent-level的scanner,它有一个或多个child-level的scanners,在这个类的实例化期间,它会加载所有的childscanner

 

KeyValueScanner:  它主要用于获取下一个KeyValue,同时他还可以不用遍历的情况下查看下一个KeyValue

 

InternalScanner: 它主要用于获取一些KeyValue(我们可以通过参数指定获取多少key value,默认是一行的所有的KeyValue

 

Scanner关闭流程如下:

 



原创粉丝点击