Hbase的后缀过滤查询

来源:互联网 发布:英国留学手续 知乎 编辑:程序博客网 时间:2024/04/29 16:05

HBase原生自带了对RowKey的很多种查询策略。通过这个过滤器可以在HBase中的数据的多个维度(行,列,数据版本)上进行对数据的筛选操作,也就是说过滤器最终能够筛选的数据能够细化到具体的一个存储单元格上(由行键,列明,时间戳定位)。

其API中提供的Filter大致如下:

  • CompareFilter

    是高层的抽象类,下面我们将看到他的实现类和实现类代表的各种过滤条件

  • RowFilter,FamliyFilter,QualifierFilter,ValueFilter

    行,列组,列,值等的过滤

  • SingleColumnValueFilter

    单值过滤器是以特定“列”的“值”为过滤内容,值得是单列的值。而行值过滤器比较的是所有列的值。与其进行比较。

  • FilterMissing

    指的是对于找不到该列的行的时候,做的特殊处理。true,不返回该行,false 返回该行

  • PrefixFilter

    前缀过滤器将会过滤掉不匹配的记录,过滤的对象是主键的值。

  • PageFilter

    分页过滤器,通过pageSize设置每次返回的行数,这需要客户端在遍历的时候记住页开始的地方,配合scan的startkey一起使用

  • FilterList

    过滤器集合,Hbase的过滤器设计遵照于设计模式中的组合模式,以上的所有过滤器都可以叠加起来共同作用于一次查询

  • KeyOnlyFilter

    设置过滤的结果集中只包含键而忽略值,

  • FirstKeyOnlyFilter

    在键过滤器的基础上,根据列有序,只包含第一个满足的键,返回每个行的第一列的KV,可以用于有效的执行行计数操作。

  • ColumnPrefixFilter

    这里过滤的对象是列的值。

  • TimestampsFilter

    这里参数是一个集合,只有包含在集合中的版本才会包含在结果集中


    由于其原生带有PrefixFilter这种对ROWKEY的前缀过滤查询,因此想着实现的后缀查询的过程中,发现这一方面相对来说还是空白。


    因此,只能采用一些策略来实现,主要还是采用正则表达式的方式。

    主要代码如下:

    Filter filter2 = new RowFilter(CompareFilter.CompareOp.EQUAL, // co RowFilterExample-2-Filter2 Another filter, this time using a regular expression to match the row keys.
                 new RegexStringComparator(".*_2015100112"));
               scan.setFilter(filter2);
               ResultScanner scanner2 = table.getScanner(scan);
               // ^^ RowFilterExample
               System.out.println("Scanning table #2...");
               // vv RowFilterExample
               for (Result res : scanner2) {
                 System.out.println(res);
               }


  • 0 0