hadoop集群之间的文件拷贝——distcp
来源:互联网 发布:c排序算法 编辑:程序博客网 时间:2024/05/29 12:46
之前部门迁移hadoop,涉及到hive表的重建,以及hdfs上文件的迁移,还有oozie任务的修改。
hive重建表比较简单,首先show create table tablename;然后把建表语句拷贝下来即可,这里要注意的是,最好把stored as XXX语句也加上。一开始我没加,还出了错,因为两个hadoop集群的hive建表时的默认的存储格式不一致。
hdfs的数据迁移,有几种方式可以选择:
1、如果数据在关系型数据库中也存在一份,可以直接使用sqoop命令导入新集群。
2、如果表不是很多,可以先从hdfs上把数据get到本地,随后再load到新集群的hive表中,或直接put进相应的hdfs路径。
3、使用hadoop distcp命令,这个命令是用于大规模集群内部和集群之间拷贝的工具。 它使用Map/Reduce实现文
件分发,错误处理和恢复,以及报告生成。 它把文件和目录的列表作为map任务的输入,每个任务会完成源列表中部
分文件的拷贝。 由于使用了Map/Reduce方法,这个工具在语义和执行上都会有特殊的地方。
下面是一个使用的例子:
hadoop distcp -Dmapred.job.queue.name=xxx -m 90 -update -skipcrccheck hftp://XXXX:50070/user/hive/warehouse/xxx.db/xxx/ user/hive/warehouse/xxx.db/xxx
阅读全文
0 0
- hadoop集群之间的文件拷贝——distcp
- 使用distcp在hadoop集群之间拷贝文件w
- hadoop集群之间的copy---->distcp
- Hadoop distcp 命令跨集群复制文件
- Hadoop—distcp
- Hadoop distcp拷贝
- hadoop distcp 实现不同集群之间数据同步
- 使用hadoop distcp从ftp拷贝文件到hdfs
- hadoop distcp拷贝数据问题
- hadoop不同版本的集群数据迁移:distcp
- Hadoop跨集群数据拷贝工具DISTCP内部源码实现分析
- hadoop深入研究:(四)——distcp
- hadoop深入研究:(四)——distcp
- hadoop深入研究:(四)——distcp
- Apache Hadoop DistCP(分布式拷贝)示例
- hadoop 之distcp(分布式拷贝)
- Hadoop集群间distcp方案探讨
- Hadoop distcp 跨集群迁移数据
- 在mysql上使用存储过程给相应的表加入字段
- 计算机图形学之光线跟踪算法的研究与实现2017年我的优秀毕业论文
- Wineskin
- box-sizing
- 添加第三方库
- hadoop集群之间的文件拷贝——distcp
- 将sklearn生成的决策树进行图形化展示
- mysql中int、bigint、smallint 和 tinyint的区别与长度的含义
- 配置(5) Ubuntu配置Java
- java 大量导入死机
- java基础---Jquery复选框checkbox全选反选及选中事件
- 文本溢出插件jquery.dotdotdot.js使用方法
- amq zeromq rabbitmq kafka 区别
- 面向高稳定,高性能之-Hbase数据实时同步到ElasticSearch(之一)