Hadoop Archives
来源:互联网 发布:ct图像重建算法matlab 编辑:程序博客网 时间:2024/05/16 19:40
什么是Hadoop archives?
Hadoop archives是特殊的档案格式。一个Hadoop archive对应一个文件系统目录。 Hadoop archive的扩展名是*.har。Hadoop archive包含元数据(形式是_index和_masterindx)和数据(part-*)文件。_index文件包含了档案中的文件的文件名和位置信息。
如何创建archive?
用法: hadoop archive -archiveName name <src>* <dest>
由-archiveName选项指定你要创建的archive的名字。比如foo.har。archive的名字的扩展名应该是*.har。输入是文件系统的路径名,路径名的格式和平时的表达方式一样。创建的archive会保存到目标目录下。注意创建archives是一个Map/Reduce job。你应该在map reduce集群上运行这个命令。下面是一个例子:
hadoop archive -archiveName foo.har /user/hadoop/dir1 /user/hadoop/dir2 /user/zoo/
在上面的例子中, /user/hadoop/dir1 和 /user/hadoop/dir2 会被归档到这个文件系统目录下 -- /user/zoo/foo.har。当创建archive时,源文件不会被更改或删除。
如何查看archives中的文件?
archive作为文件系统层暴露给外界。所以所有的fs shell命令都能在archive上运行,但是要使用不同的URI。 另外,archive是不可改变的。所以重命名,删除和创建都会返回错误。Hadoop Archives 的URI是
har://scheme-hostname:port/archivepath/fileinarchive
如果没提供scheme-hostname,它会使用默认的文件系统。这种情况下URI是这种形式
har:///archivepath/fileinarchive
这是一个archive的例子。archive的输入是/dir。这个dir目录包含文件filea,fileb。 把/dir归档到/user/hadoop/foo.bar的命令是
hadoop archive -archiveName foo.har /dir /user/hadoop
获得创建的archive中的文件列表,使用命令
hadoop dfs -lsr har:///user/hadoop/foo.har
查看archive中的filea文件的命令-
hadoop dfs -cat har:///user/hadoop/foo.har/dir/filea
- Hadoop Archives
- Hadoop Archives
- [Hadoop]Hadoop Archives
- archives in hadoop
- Hadoop archives 说明
- Hadoop Archives 小数据处理
- Hadoop Archives指南
- Hadoop HDFS (4) Hadoop Archives
- hadoop深入研究:(五)——Archives
- Hadoop深入研究:(五)——Archives
- hadoop深入研究:(五)——Archives
- Hadoop Distributed Cache 共享archives时的问题(以MapFile的共享为例)
- 很不错的hadoop学习网站:http://www.weixuehao.com/archives/111
- Chat Archives
- Article Archives
- Osip-dev Archives
- Archives的生成
- Defcon Media Archives
- 怎样设定目标(五)设定目标失败的七大原因
- 关于不适用etl的其他方式做数据统计
- 定点相机
- [Android 进阶]MediaCodec简介
- 1055. 集体照 (25)
- Hadoop Archives
- Spring AOP 嵌套AOP
- java之蛇皮多线程(2)
- 编程语言、标记语言、脚本语言
- 指针基础(此文还没涉及指针作为函数形参)
- 3.OpenGL学习之图元属性
- 微信浏览器上传图片和文件
- OneinStack自动部署Let's Encrypt证书
- 7-11 关键活动(30 分)