Hadoop和spark中读取文件通配符使用举例
来源:互联网 发布:bp神经网络 遗传算法 编辑:程序博客网 时间:2024/06/07 15:14
在单个操作中处理一批文件,这是一个常见的要求。举例来说,处理日志的MapReduce作业可能需要分析一个月内包含在大量目录中的日志文件。在一个表达式中使用通配符来匹配多个文件是比较方便的,无需列举第个文件 和目录来指定输入,该操作称为”通配”(globbing)。Hadoop 为执行通配提供了两个FileSystem方法:
public FileStatus[] globStatus(Path pathPattern) throws IOExceptionpublic FileStatus[] globStatus(Paht pathPattern , PathFileter filter) throws IOException
globStatus()方法返回与路径相匹配的所有文件的 FileStatus 对象数组,并按路径排序。PathFilter命令作为可选项可以进一步对匹配进行限制。
Hadoop支持的通配符与Unix bash相同
表1 通配符及其含义
假设有日志文件存储按照日期分层组织的目录结构中。如此一来,2017年最后一天的日志文件就会存在以2017/12/31命名的目录中。假设整个文件目录文件列表如下:
- /2017/12/30
- /2017/12/31
- /2018/01/01
- /2018/01/02
一些文件通配符及其扩展如下所示:
– 以上载自《Hadoop权威指南》
阅读全文
0 0
- Hadoop和spark中读取文件通配符使用举例
- Hadoop 和 spark 读取多个文件通配符规则(正则表达式)joe
- Java中使用通配符配置struts文件<单通配符和双通配符>
- hadoop输入路径读取文件的正则通配符
- (五)hadoop路径读取文件的通配符
- spark 读取hadoop 格式的文件
- hadoop和spark读取GBK编码乱码
- hadoop 文件通配符
- Android 中String文件通配符使用
- spark例子无法读取到hadoop的hdfs的文件
- makefile中使用通配符和换行符
- Spark在Hadoop的HDFS中读取数据
- 使用Hadoop和Spark实现二次排序
- Spark: Spark和Hadoop的区别--关于资源使用
- Java读取properties文件举例
- Hadoop读取sequencefile和textfile文件内容
- Word中使用通配符
- Struts2中使用通配符
- Linux常用命令一
- 转载:如何快速转载博文
- BZOJ3224/洛谷P3391
- 【远程桌面】Dell机器登陆与退出远程桌面
- 生活总是这样
- Hadoop和spark中读取文件通配符使用举例
- c# 委托 delegate
- 浅谈SQL Server中的三种物理连接操作
- 打包工具(构建工具)-webpack
- 使用事件委托降低重复的事件绑定,从而降低dom操作的对性能的消耗
- linux下shell编程print与printf的区别
- springcloud入门之服务消费者(ribbon)
- Python中的深拷贝和浅拷贝详解
- html+js+css学习