Sqoop-1.4.6安装部署及详细使用介绍
来源:互联网 发布:hp p1606dn 网络打印 编辑:程序博客网 时间:2024/05/22 00:35
之所以选择Sqoop1是因为Sqoop2目前问题太多。无法正常使用,综合比较后选择Sqoop1。
Sqoop1安装配置比较简单
一、安装部署
(1)、下载地址:http://archive.cloudera.com/cdh5/cdh/5/sqoop-1.4.6-cdh5.5.2.tar.gz
解压到/opt/cdh5/sqoop
(2)、拷贝MySQL的jdbc驱动包mysql-connector-Java-5.1.31-bin.jar到sqoop/lib目录下。
(3)、配置环境变量
#sqoop
export SQOOP_HOME=/opt/cdh5/sqoop
export PATH=$PATH:$SQOOP_HOME/bin
(4)、复制sqoop/conf/sqoop-env-template.sh为sqoop-env.sh
添加相关的配置
#Setpath to where bin/Hadoop is available
exportHADOOP_COMMON_HOME=/opt/cdh5/hadoop
#Setpath to where hadoop-*-core.jar isavailable
exportHADOOP_MAPRED_HOME=/opt/cdh5/hadoop
#setthe path to where bin/Hbase isavailable
exportHBASE_HOME=/opt/cdh5/hbase
#Setthe path to where bin/Hive is available
exportHIVE_HOME= /opt/cdh5/hive
#Setthe path for where zookeper config diris
exportZOOCFGDIR= /opt/cdh5/zookeeper
(5)、测试Sqoop
发现有警告
修改$SQOOP_HOME/bin/configure-sqoop
注释掉HCatalog,Accumulo检查(除非你准备使用HCatalog,Accumulo等HADOOP上的组件)
## Moved to be a runtime check in sqoop.
#if [ ! -d "${HCAT_HOME}" ]; then
# echo "Warning: $HCAT_HOME does not exist! HCatalog jobs willfail."
# echo 'Please set $HCAT_HOME to the root of your HCatalog installation.'
#fi
#if [ ! -d "${ACCUMULO_HOME}" ];then
# echo "Warning: $ACCUMULO_HOME does not exist! Accumulo imports willfail."
# echo 'Please set $ACCUMULO_HOME to the root of your Accumuloinstallation.'
#fi
再次执行sqoop version
你也可以查看某一个命令的使用说明:
$ sqoopimport --help
$ sqoophelp import
sqoop import 的一个示例如下:
$ sqoop import --connect jdbc:mysql://192.168.56.121:3306/metastore --username hiveuser --password redhat --table TBLS
你还可以使用 --options-file 来传入一个文件,使用这种方式可以重用一些配置参数:
$ sqoop --options-file /users/homer/work/import.txt --table TEST
/users/homer/work/import.txt 文件内容如下:
import
--connect
jdbc:mysql://192.168.56.121:3306/metastore
--username
hiveuser
--password
redhat
二、Sqoop使用说明
1、测试连接:
(1)显示mysql数据库列表
sqoop list-databases –connect jdbc:mysql://hadoop003:3306/--username root –P
(2)显示数据库里所有表:
sqoop list-tables --connectjdbc:mysql://hadoop003:3306/EDW --username root -P
2、Mysql与HDFS互导
(1)mysql导入到hdfs
把mysql中表fin_cashier_order导入到hdfs,导入之前查询一下fin_cashier_order表中的数据
共:199条
sqoop import --connectjdbc:mysql://hadoop003:3306/ssa --username root --password ***** --table fin_cashier_order --target-dir/user/hadoop/databases/ssa/fin_cashier_order -m 4
-m 表示Map并发数
若是不写--target-dir 则默认是hdfs上的user/username/tablename 路径
如果重复执行,会提示目录已经存在,可以手动删除
运行完mapreduce结束后去HDFS上检查
验证hdfs上导入的数据:
hadoop fs -ls /user/hadoop/databases/ssa/fin_cashier_order
hadoop fs -cat /user/hadoop/databases/ssa/fin_cashier_order/part-m-00000
(2)HDFS导入到mysql
把HDFS中数据导入到Mysql表中,mysql中需要预先建立空表fin_cashier_order2,此时该表为空
sqoop export --connectjdbc:mysql://hadoop003:3306/ssa --table fin_cashier_order2 --username root--password ****** --export-dirhdfs://jrtestcluster/user/hadoop/databases/ssa/fin_cashier_order/
运行完显示
16/02/25 16:23:39 INFOmapreduce.ExportJobBase: Transferred 70.4619 KB in 48.3235 seconds (1.4581KB/sec)
16/02/25 16:23:39 INFO mapreduce.ExportJobBase:Exported 199 records.
显示导出199条记录。
到表fin_cashier_order2查看
并且正好也是199条。
至此,用Sqoop将mysql与HDFS互导功都验证完毕
你还可以指定其他的参数:
示例程序:
$ sqoop import --connect jdbc:mysql://192.168.56.121:3306/metastore --username hiveuser --password redhat --table TBLS --columns "tbl_id,create_time" --where "tbl_id > 1" --target-dir /user/hive/result
使用 sql 语句
参照上表,使用 sql 语句查询时,需要指定 $CONDITIONS
$ sqoop import --connect jdbc:mysql://192.168.56.121:3306/metastore --username hiveuser --password redhat --query 'SELECT * from TBLS where \$CONDITIONS ' --split-by tbl_id -m 4 --target-dir /user/hive/result
上面命令通过 -m 1 控制并发的 map 数。
使用 direct 模式:
$ sqoop import --connect jdbc:mysql://192.168.56.121:3306/metastore --username hiveuser --password redhat --table TBLS --delete-target-dir --direct --default-character-set UTF-8 --target-dir /user/hive/result
指定文件输出格式:
$ sqoop import --connect jdbc:mysql://192.168.56.121:3306/metastore --username hiveuser --password redhat --table TBLS --fields-terminated-by"\t" --lines-terminated-by "\n" --delete-target-dir --target-dir /user/hive/result
这时候查看 hdfs 中数据(观察分隔符是否为制表符):
$ hadoop fs -ls resultFound 5 items-rw-r--r-- 3 root hadoop 0 2014-08-04 16:07 result/_SUCCESS-rw-r--r-- 3 root hadoop 69 2014-08-04 16:07 result/part-m-00000-rw-r--r-- 3 root hadoop 0 2014-08-04 16:07 result/part-m-00001-rw-r--r-- 3 root hadoop 142 2014-08-04 16:07 result/part-m-00002-rw-r--r-- 3 root hadoop 62 2014-08-04 16:07 result/part-m-00003$ hadoop fs -cat result/part-m-0000034 1406784308 8 0 root 0 45 test1 EXTERNAL_TABLE null null null$ hadoop fs -cat result/part-m-0000240 1406797005 9 0 root 0 52 test2 EXTERNAL_TABLE null null null42 1407122307 7 0 root 0 59 test3 EXTERNAL_TABLE null null null
指定空字符串:
$ sqoop import --connect jdbc:mysql://192.168.56.121:3306/metastore --username hiveuser --password redhat --table TBLS --fields-terminated-by "\t" --lines-terminated-by "\n" --delete-target-dir --null-string '\\N' --null-non-string '\\N' --target-dir /user/hive/result
如果需要指定压缩:
$ sqoop import --connect jdbc:mysql://192.168.56.121:3306/metastore --username hiveuser --password redhat --table TBLS --fields-terminated-by "\t" --lines-terminated-by "\n" --delete-target-dir --null-string '\\N' --null-non-string '\\N' --compression-codec "com.hadoop.compression.lzo.LzopCodec" --target-dir /user/hive/result
附:可选的文件参数如下表。
错误1:
ERROR tool.ImportTool: EncounteredIOException running import job: java.io.IOException: DataStreamer Exception:
atorg.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.run(DFSOutputStream.java:796)
Caused by: java.lang.OutOfMemoryError:unable to create new native thread
at java.lang.Thread.start0(Native Method)
at java.lang.Thread.start(Thread.java:714)
atorg.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.initDataStreaming(DFSOutputStream.java:581)
at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.run(DFSOutputStream.java:669)
解决方法:
net.ipv4.ip_local_port_range = 1024 65000
修改系统参数
echo "100000" > /proc/sys/kernel/threads-max
echo "100000" > /proc/sys/kernel/pid_max (默认32768)
echo "200000" > /proc/sys/vm/max_map_count (默认65530)
修改/etc/security/limits.conf
* - nproc 999999
* -nofile 999999
PS:nproc是修改系统的max user processes大小;nofile 是修改open files的大小,另外Linux 2.6.25内核之前有个宏定义,定义了这个值的最大值,为1024*1024,正好是100万,而在2.6.25内核及其之后,这个值是可以通过/proc/sys/fs/nr_open来设置,不过,999999足够用了。
很多人可能会遇到,只能启动32000多个线程就不能再起更多的线程了,其实就是pid_max = 32768 给限制住了
增加map数量,通过sqoop -m 选项指定更多的map。通过更多的map,降少每个子进程占用的heap space,避免超出hadoop设置的Java heap space 大小
sqoop ... -m <map 数量>
错误2:
Caused by: java.lang.RuntimeException:java.sql.SQLException: Access denied for user 'root'@'hadoop003' (usingpassword: YES)
atorg.apache.sqoop.mapreduce.db.DBInputFormat.getConnection(DBInputFormat.java:220)
atorg.apache.sqoop.mapreduce.db.DBInputFormat.setConf(DBInputFormat.java:165)
... 9 more
程序正常运行,结果也正确。说明数据库连接是正确的,而且单独用mysql连接也是可以的。就是报这个异常错误。
查询数据库里用户信息
JDBC连接的机器名是hadoop003,虽然已经赋予root所有机器的远程访问权限(“%”),但是hadoop003这个账户可能没有开通机器的远程权限。于是给hadoop003这个机器开通远程权限。
GRANT ALL PRIVILEGES ON *.* TO'root'@'hadoop003' IDENTIFIED BY '********' WITH GRANT OPTION;
再次执行导入命令。成功。不再出现上面错误。
从mysql导入到Hive里报如下错误:
ERROR hive.HiveConfig: Could not loadorg.apache.hadoop.hive.conf.HiveConf. Make sure HIVE_CONF_DIR is set correctly.
16/02/26 14:43:47 ERROR tool.ImportTool:Encountered IOException running import job: java.io.IOException:java.lang.ClassNotFoundException: org.apache.hadoop.hive.conf.HiveConf
数据已经导入到HDFS。从HDFS移动到Hive里时出错。提示HIVE_CONF_DIR配置不对。
但是将HIVE_CONF_DIR添加到sqoop-env.sh、hadoop-env.sh、hive-env.sh都不起作用。
最终正确的解决方法:
在/etc/profile 里添加下面一句话
exportHADOOP_CLASSPATH=$HADOOP_CLASSPATH:$HIVE_HOME/lib/*
Sqoop-1.4.7版本好像解决了这个问题。期待这个版本
- Sqoop-1.4.6安装部署及详细使用介绍
- Sqoop-1.4.6安装部署及详细使用介绍
- Sqoop-1.4.6安装部署及详细使用介绍
- Sqoop-1.4.6安装部署及详细使用介绍
- Sqoop-1.4.6安装部署及详细使用介绍和部分报错信息汇总
- Sqoop-1.4.6安装部署
- Sqoop介绍、搭建、安装、部署
- Sqoop介绍及使用
- Sqoop 简介及安装部署
- SQOOP部署及简单使用
- sqoop 安装及使用
- sqoop安装及使用
- SVN 管理软件安装、部署、使用详细介绍
- Sqoop_详细图解 Sqoop介绍、安装配置
- sqoop的安装及使用
- Sqoop相关---安装及使用
- sqoop-1.4.6安装及常见问题解决
- sqoop-1.4.6 安装及配置
- 循环队列
- Java生成唯一GUID UUID
- mysql列转换
- testNG测试配置文件testng.xml
- 树莓派 中文乱码 解决方法
- Sqoop-1.4.6安装部署及详细使用介绍
- Effective Modern C++: Item 13 -> 优先选择const_iterators而不是iterators
- fprintf()函数用法
- SSM框架Spring+SpringMVC+MyBatis——详细整合教程
- Java性能调优技巧
- 音视频解码简介
- 解决Tomcat不能部署项目Errors occurred during the build.
- Android 源码分析 ButterKnife框架原理
- Scapy脚本执行出现警告WARNING解决办法