HBase_数据批量导入

来源:互联网 发布:ubuntu当个人日常使用 编辑:程序博客网 时间:2024/06/04 01:12

使用HBase自带的lib包下的hbase-server-xxx.jar中的importtsv和completebulkload导入数据

1.首先需要在Hadoop集群中配置HBase的环境

1.复制hbase-site.xml$HADOOP_HOME/etc/hadoop/
2.编辑$HADOOP_HOME/etc/hadoop/hadoop-env.sh,在最后增加一行,意思是将hbase的lib下的所有jar加入到hadoop的classpath目录下。

exportHADOOP_CLASSPATH=$HADOOP_CLASSPATH:$HBASE_HOME/lib/*

3.将上述两个文件内容复制到集群其他节点

2.将数据上传到HDFS,例如我上传到了/input/hbase/music
3.执行命令,这条命令比较长,实际上是对数据进行了预处理,放到输出路径下。

hadoop jar jar路径 importtsv -Dimporttsv.bulk.output=HDFS输出路径 -Dimporttsv.columns=HBASE_ROW_KEY,列族:列键 表名 HDFS输入路径

比如:

hadoop jar /home/hadoop/apps/hbase/lib/hbase-server-1.3.1.jar importtsv -Dimporttsv.bulk.output=/user/hadoop/tmp -Dimporttsv.columns=HBASE_ROW_KEY,info:name,info:singer,info:gender,info:type,info:client music /input/music

4.执行命令,将处理后的数据放入hbase

hadoop jar jar包路径 completebulkload 预处理后的路径 表名

例如:

hadoop jar /home/hadoop/apps/hbase/lib/hbase-server-1.3.1.jar completebulkload /user/hadoop/tmp music

5.查看hbase数据库

原创粉丝点击