Hbase协处理器

来源：互联网发布：网络逗逗迪迪爱探险编辑：程序博客网时间：2024/06/15 03:07

协处理器

hbase作为数据库最经常被人诟病的特性包括：

无法轻易建立“二级索引”，难以求和、计数、排序等操作

比如，在旧版本的（<0.92）Hbase中，统计数据表的行数，需要使用Counter方法，执行一次MapReduce Job 才能得到。虽然Hbase在数据存储层中集成了MapReduce，能够有效用于数据表的分布式计算

然而在很多情况下，做一些简单的相加或者聚合计算的时候，如果直接将计算过程放置在Server端，能够减少通讯开销，从而获得很好的性能提升。于是,Hbase在0.92之后引入了协处理器，实现一些激动人心的新特性：能够轻易建立二级索引、复杂过滤器以及访问控制等

Hbase协处理器的灵感来自于Jeff Dean 09年的演讲。它根据该演讲实现了类似bigtable的协处理器，包括一下特性：

1) 每个表服务器的任意子表都可以运行代码

2) 客户端的高层调用接口（客户端能够直接访问数据表的行地址，多行读写会自动分片成多个RPC调用）

3) 提供一个非常灵活、可用于建立分布式服务的数据模型

4) 能够自动化拓展、负载均衡、应用请求路由

Hbase的协处理器灵感来自bigtable。但是实现细节不尽相同。Hbase建立了一个框架，它为用户提供类库和运行时环境，使得他们的代码能够在Hbase region server 和 master 上处理

协处理器分为两种类型，系统协处理器可以全局导入regionserver上的所有数据表，表写吹即是用户可以指定一张表使用协处理器

协处理器框架为了更好支持其行为的灵活性，提供了两个不同方面的插件。一个是观察者（Observer），类似于关系数据库的触发器。另一个是终端（endpoint），动态的终端有点像存储过程

Observer

观察者的设计意图是允许用户通过插入代码来重载处理器框架的upcall方法，而具体的时间出发的callback方法有Hbase 的核心代码来执行。协处理器框架处理所有的callbback

调用细节，协处理器资深只需要插入添加或者改变的功能

以Hbase0.92为例，它提供了三种观察者接口：

RegionObserver:提供客户端的数据操纵时间钩子:Get、Put、Delete、Scan等。

WALObserver:提供WAL相关操作的钩子

MasterObserver:提供DDL类型的操作钩子。如创建、删除、修改数据表等。

这些接口可以同时使用在同一个地方，按照不同优先级顺序执行，用户可以任意基于协处理器实现复杂的Hbase功能层。Hbase有很多时间可以触发观察者方法，这些时间与方法从Hbase0.92版本起，都会集成在Hbase API中。不过这些API可能会由于各种原因有所改动，不同版本的接口改动比较大

Observer模型

EndPonit

终端是动态RPC插件的接口，它的实现代码被安装在服务器端，从而能够通过Hbase RPC唤醒。客户端类库提供了非常方便的方法来调用这些动态接口，他们可以在任意时候调用一个终端，他们的实现代码会被目标region远程执行，结果会返回到终端。用户可以结合使用这些强大的插件接口，为Hbase添加全新的特性。终端的使用，如下面的流程所示：

定义一个新的protocol接口，必须继承CoprocessorProtocol

实现终端接口，该实现会被导入region环境执行。

继承抽象类，BaseEndpointCoprocessor

在客户端，终端可以被两个新的Hbase Client API 调用。单个region:

HTableInterface.coprocessorProxy(Class<T> protocol,byte[] row).regions区域：HTableInterface.coprocessorExec(Class<T> protocol,byte [] startKey,byte[] endkey,Batch.Call<T,R> callable)

有三个方法对EndPoint进行设置:

A.启动全局aggregation，能通过操纵所有表上的数据。通过修改hbase-site.xml这个文件来实现，只需要添加如下代码

<property><name>hbase.coprocessor.user.region.classes</name> <value>org.apache.hadoop.hbase.coprocessor.RowCountEndpoint</value></property>

B.启用表aggregation,只对特定的表生效，通过Hbase Shell来实现.

(1)disable指定表。hbase>disable 'mytable'

(2)添加aggregation hbase > alter 'mytable',METHOD=>'table_att','coprocessor'=>'|org.apache.hadoop.hbase.coprocessor.RowCountEndponit||'

(3)重启指定表hbase>enable 'mytable'

C.API调用

HTableDescriptor htd = new HTableDescriptor("testTable");

htd.setValue("CORPROCESSOR$1",path.tiString+"|"+RowCountEndpoint.class.getCanonicalName()+"|"+Coprocessor.Priority.USER);

阅读全文

0 0