合并HDFS和本地文件系统中的小文件
来源:互联网 发布:东方财富软件下载 编辑:程序博客网 时间:2024/05/29 17:57
关键字:hadoop hdfs 小文件、appendToFile、getmerge
众所周知,HDFS中过多的小文件,会给NameNode造成很大的压力,所谓的小文件,是指远远小于文件块大小的文件。
在使用HDFS的过程中,应尽量避免生成过多的小文件。
本文以TextFile为例,介绍一下从本地–>HDFS、HDFS–>本地、以及HDFS–>HDFS的文件上传下载移动过程中,对小文件的合并方法。
将本地的小文件合并,上传到HDFS
假设存放在本地的数据由很多个小文件组成,需要上传到HDFS。一般的做法是在本地使用脚本、程序先把小文件合并后再上传。
其实没有必要,HDFS中提供了一个很有用的命令 appendToFile,就可以解决这个问题。
假设本地有两个小文件1.txt和2.txt,里面内容如下:
使用下面的命令,可以将1.txt和2.txt合并,并上传到HDFS:
下载HDFS的小文件到本地,合并成一个大文件
假设在HDFS的/tmp/lxw1234/目录下,有两个小文件1.txt和2.txt
需要将它们下载到本地的一个文件中。
使用下面的命令:
合并HDFS上的小文件
如果需要合并HDFS上的某个目录下有很多小文件,可以尝试使用下面的命令:
注意:这种处理方法在数据量非常大的情况下可能不太适合,最好使用MapReduce来合并。
转自:lxw的大数据田地 » 合并HDFS和本地文件系统中的小文件
阅读全文
0 0
- 合并HDFS和本地文件系统中的小文件
- HDFS和本地文件系统文件互导
- Hadoop入口FileSystem HDFS操作 本地文件合并到HDFS和HDFS文件合并
- 合并本地文件到HDFS文件中
- hdfs 小文件合并
- 利用Hbase解决HDFS小文件合并
- HDFS的小文件合并上传
- HDFS小文件的合并优化
- Spark hello word(加载本地文件和加载hdfs文件)
- 合并本地文件并上传到hdfs
- HDFS小文件合并问题的优化:copyMerge的改进
- Hdfs增量导入小文件合并的思路
- HDFS文件的合并
- 合并 hdfs 文件
- HDFS文件合并问题
- HDFS合并文件
- hdfs mount为linux本地文件系统
- 自己写了一个flume小文件合并脚本,解决hdfs小文件过多问题
- 二叉树的链式存储
- SVN客户端与服务端安装
- Canvas 入门6 requestAnimationFrame实现动画
- Linq查询数据集取得排序后的序列号(行号)
- 欢迎使用CSDN-markdown编辑器
- 合并HDFS和本地文件系统中的小文件
- 使用c/c++读取中文乱码的解决方案
- 数据结构实验之图论八:欧拉回路
- vmware12激活
- 进程管道
- android的沉浸式
- Test3@Samba企业应用案例需求
- 在Windows上记录错误
- 【代码笔记】iOS-MBProgressHUD-Demo