hadoop中的DistCp和FastCopy
来源:互联网 发布:百度经纬度坐标数据库 编辑:程序博客网 时间:2024/06/07 13:05
DistCp是集群内部或者集群之间高性能拷贝工具,使用mapreduce实现文件分发、数据处理、报告生成。
DistCp1最大的特点就是map-only,可以加快文件传输速度。由于需要保证文件中block块的有序性,mapreduce以文件为分发单位。加上map阶段是静态分配map task的,分发时容易造成负载不均匀。
DistCp2采用动态分配map task机制,”多劳多得“。目录文件被分成多个chunk.K文件,执行快的map task可以多领取几个chunk.K文件,解决了负载不均衡的问题,但仍存在传输效率低下的问题。
考虑到数据仍在同一datanode上,则可以采用文件硬链接实现FastCopy。FaceBook和淘宝的跨机房项目就是采用这种FastCopy实现在不同结点中快传的。
阅读全文
0 0
- hadoop中的DistCp和FastCopy
- Hadoop中的distcp
- hadoop distcp
- hadoop distcp
- hadoop distcp
- HADOOP数据复制工具Distcp和cp比较
- Hadoop distcp命令
- hadoop命令distcp注意事项
- Hadoop distcp command error
- hadoop distcp 命令
- hadoop命令distcp注意事项
- hadoop distcp 命令
- Hadoop distcp拷贝
- Hadoop中一个distcp
- hadoop命令distcp注意事项
- Hadoop中一个distcp
- Hadoop中一个distcp
- Hadoop distcp工具
- Android Studio2.3正式版带SDK安装教程 亲测有效!
- linux输入输出重定向详解
- Zend Studio使用教程:使用jQuery支持进行开发(一)
- Shortest path in a Maze | Lee algorithm
- hdu 5025
- hadoop中的DistCp和FastCopy
- Android App 瘦身总结 第三章 代码混淆及优化
- ReflectionUtils
- SpringBoot集成Redis消息订阅发布
- 每天五分钟linux(4)-mkdir
- c++中动态绑定的技术实现
- source insight utf8设置
- 检查数组是否包含某个值的方法
- BI怎么选?重点看这10个技术指标