Sqoop -- 用于Hadoop与关系数据库间数据导入导出工作的工具

来源:互联网 发布:小乖淘宝店鞋店 编辑:程序博客网 时间:2024/05/16 08:30

  Sqoop是一款开源的工具,主要用于在Hadoop相关存储(HDFS、Hive、HBase)与传统关系数据库(MySql、Oracle等)间进行数据传递工作。Sqoop最早是作为Hadoop的一个第三方模块存在,后来被独立成为了一个Apache项目。除了关系数据库外,对于某些NoSQL数据库,Sqoop也提供了连接器。

一、Sqoop基础知识

  Sqoop项目开始于2009年,可以在Hadoop相关存储与传统关系数据库之间进行数据导入导出工作。Sqoop会开启多个MapReduce任务来并行进行数据导入导出工作,提高工作效率。


二、Sqoop安装

  本实例安装版本:sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz。

1、将安装文件上传到/usr/local/目录下并解压,然后重命名为sqoop。

2、配置环境变量,执行命令:vi /etc/profile,增加export $SQOOP_HOME=/usr/local/bin,并在export PATH中增加$PIG_HOME/bin,然后执行命令:source /etc/profile使配置文件立即生效。

3、将需要连接的数据库驱动文件拷贝至lib目录下,此实例连接mysql数据库,驱动文件为:mysql-connector-java-5.1.34.jar。注意,hadoop2貌似需要5.1.30以后的mysql驱动版本,否则很可能报错。

三、Sqoop使用命令

   参考官方文档:http://sqoop.apache.org/docs/1.4.5/index.html。

1、MySQL数据导入到Hadoop

   sqoop import --connect jdbc:mysql://192.168.137.1:3306/test --username root --password 123456 --table mytabs --fields-terminated-by '\t' -m 1 [--hive-import] --append --check-column 'id'  --incremental append --last-value 5 --where 'id>2 and id<5'

   常用参数说明:

   ▶ --fields-terminated-by '\t',表示将数据导入到hadoop中列记录之间的间隔符,默认符号为英文逗号。这里通常使用制表符\t来间隔数据,避免数据再次从HDFS到入到关系数据库时引起分割混乱;

   ▶ -m 1,是--num-mappers的缩写,表示指定MapReduce的个数为1个(默认会自动开启多个),sqoop转化的MR程序不包含reduce

   ▶ --append,表示数据导入到hadoop的方式为追加,否则不允许重复导入;

   ▶ --check-column '主键列名' --incremental append --last-value 5,表示数据为增量导入,根据--last-value的值来判断,有大于这个值的记录则执行导入,否则不执行导入操作;

   ▶ --hive-import,表示将数据导入到Hive中;

   ▶ --where '',数据筛选条件

   ▶ -e 或--query 'select * from table where id>5 and $CONDITIONS',自定义导入数据的sql语句。使用自定义sql语句需要注意:① 使用了自定义sql就不能指定--table;② 自定义sql语句的where条件中必须包含字符串"$CONDITIONS",$CONDITIONS是一个变量,用于给多个map任务划分任务范围;③ 使用自定义sql时,如果通过参数-m指定多个map任务,由于自定义sql中可能存在多表查询,因此必须使用参数“--split-by 表名.字段名”指定多个map任务分割数据的根据字段,如--split-by users.id;

   ▶ --target-dir,显示指定数据导入到HDFS中的位置,默认保存路径为:/user/{当前用户}/{表名}/表数据文件,如果导入时需要将已存在的HDFS文件删除,可使用--delete-target-dir; 

2、Hadoop数据导入到MySQL

   sqoop export --connect jdbc:mysql://192.168.137.1:3306/test --username root --password 123456 --table ids --fields-terminated-by '\t' --export-dir '/ids'

   其中--export-dir '/ids',表示指定要导出的HDFS文件地址。执行导出操作前,必须保证MySQL表ids存在。

3、将Sqoop命令保存作业方便调用

   sqoop job --create myjob -- import --connect jdbc:mysql://192.168.137.1:3306/test --username root --password 123456 --table mytabs --fields-terminated-by '\t'

   其中myjob表示作业名称。在job中保存密码,默认在调用时还会要求输入密码,需要将密码直接保存在job中下次可以免密码直接执行,可以将/conf/sqoop-site.xml中的sqoop.metastore.client.record.password注视去掉。

   其他相关作业命令:① job sqoop job --list,查看作业列表;② job sqoop job --delete myjob,删除作业

0 0
原创粉丝点击
热门问题 老师的惩罚 人脸识别 我在镇武司摸鱼那些年 重生之率土为王 我在大康的咸鱼生活 盘龙之生命进化 天生仙种 凡人之先天五行 春回大明朝 姑娘不必设防,我是瞎子 发现老婆衣柜里有避孕套怎么办 2岁宝宝爱舔东西怎么办 痔疮手术后痛疼怎么办 长了内痔疮该怎么办 淘宝卖家遇到恶意买家怎么办 淘宝遇到恶意买家拍单怎么办 淘宝遇到买家恶意搞坏商品怎么办 木油味道很重怎么办 床垫外面布坏了怎么办 淘宝店铺动态评分低怎么办 实创倒闭返款怎么办 qq红包忘记支付密码怎么办 qq红包支付密码忘了怎么办 个人卖东西人家要发票怎么办 打了欠条找不到人怎么办 公章掉进水里了怎么办 手游吃鸡限制登入15分钟怎么办 宝宝的小鸡淹了怎么办 宝宝小鸡底下淹了怎么办 4岁宝宝拉稀水怎么办 2岁半宝宝对眼怎么办 孩子在幼儿园中午不睡觉怎么办 20天婴儿拉稀水怎么办 3个月婴儿拉水怎么办 两岁宝宝拉水怎么办 1岁半宝宝拉水怎么办 5周孩子小鸡长脂肪粒怎么办 小孩丁丁长歪了怎么办 2个月的婴儿咳嗽怎么办 2个月的宝宝干咳怎么办 2月宝宝感冒咳嗽怎么办 产妇肚子上长小疙瘩很痒怎么办 泰迪生下小狗不吃奶怎么办? 刚生的狗不吃奶怎么办 刚出生的小牛不吃奶怎么办 吃奶的狗崽拉稀怎么办 新生儿吃奶老是呛到怎么办 刚生小狗不吃奶怎么办 刚出生的小羊不吃奶怎么办 羔羊走路不稳不吃奶怎么办 新生儿喝奶老是呛到怎么办