HBase的数据迁移及importTsv功能

来源:互联网 发布:mysql 多主多从 编辑:程序博客网 时间:2024/06/05 14:29

一、数据迁移场景举例

         1. HBase集群装好了,若需要往表中装数据;

         2. 数据的备份,如测试集群往生产集群上迁移。

二、几种HBase数据导入方式

         1. 使用HBase Put API:例如MapReduce也是使用Put API;

         2. 使用HBase批量加载工具;

         3.自定义的MapReduce job

        这三种方式都涉及到Put内置,大多数数据迁移场景都涉及到数据的导入(import),从存在的RDBMS导入到HBase中去,大多数简单直接的方法是直接获取数据,使用单线程,这种效果非常慢,其实可以写多线程完成。

三、importTsv功能

        ImportTsv是HBase官方提供的基于MapReduce的批量数据导入工具。同时,ImportTsv是HBase提供的一个命令行工具,可以将存储在HDFS上的自定义分隔符(默认\t)的数据文件,通过一条命令方便的导入到HBase表中,对于大数据量导入非常有用。

        那么,如何使用ImportTsv呢?


        第一步,建立student.tsv文件,如下图:



        第二步,编辑student.tsv文件,添加以下内容,并保存,如下图:




        第三步,创建一个目录,如下图:




        第四步,上传文件,如下图:




        第五步,建表,在HBase中创建一个名为student的表,列簇为info。


        第六步,开始运行MapReduce,命令如下:




        第七步,查看student表格结果,如下图:



        通过以上步骤可以将一个tsv文件的数据导入到hbase的表格中。


原创粉丝点击