sqoop 导入导出数据倾斜问题优化

来源:互联网 发布:移动宽带看网络电视卡 编辑:程序博客网 时间:2024/06/14 06:33

导入:

PG => hive   : 


sqoop import  --connect jdbc:postgresql://host:5432/test --username test --password test --table jxl_main_service --hive-import   --hive-table  jxl_tmp.jxl_main_service --split-by report_id  -m 18    


由于数据分布不均匀,导致少数MapJob 比较缓慢,使用--split-by 按照字段进行切分,然后-m 提高并行的。

导出:

hive=> PG :

 


sqoop export -Dorg.apache.sqoop.export.text.dump_data_on_error=true  --connect jdbc:postgresql://ip:5432/db  --update-mode allowinsert  --username db --password 'db'  --table comm_identity_location  --fields-terminated-by '\001'  --export-dir 'hdfs://nm/ods/20170829/tmp/t_iden_procity'  --input-null-string '\\N' --input-null-non-string '\\N' --input-fields-terminated-by '\001'



 ::导出: