Hadoop streaming mapreduce多文件输入使用方法
来源:互联网 发布:防雾霾口罩推荐知乎 编辑:程序博客网 时间:2024/05/10 00:49
写Mapreduce程序时,常常会有同时处理多个输入文件的的需求,那么如何在map程序中方便的知道这一条record到底来自哪个文件呢?如果数据源是可控的,我们尚可以通过字段的个数等来判断,然而这不是一个优雅的方法,其实hadoop已经给了留了解决方法:在map端获取环境变量map_input_file(0.21.x的版本分支中是mapreduce_map_input_file)即为本次的输入文件。
以笔者使用的hadoop streaming + python环境为例:
输入文件有两个:
-input "/home/hadoop/file1"
-input "/home/hadoop/file2"
在mapper文件中:
if 'file1' in os.getenv('map_input_file'):
//文件1处理逻辑
if 'file2' in os.getenv('map_input_file'):
//文件2处理逻辑
0 0
- Hadoop streaming mapreduce多文件输入使用方法
- Hadoop streaming 编写MapReduce程序-二次排序,多文件输入
- hadoop mapreduce 多输入路径
- 自定义 hadoop MapReduce InputFormat 切分输入文件
- 自定义 hadoop MapReduce InputFormat 切分输入文件
- 自定义 hadoop MapReduce InputFormat 切分输入文件
- 自定义 hadoop MapReduce InputFormat 切分输入文件
- 自定义 hadoop MapReduce InputFormat 切分输入文件
- 通过hadoop streaming 输入两个文件或目录
- 在Hadoop中使用Streaming编写MapReduce
- 用Bash Script编写Hadoop MapReduce Streaming
- Python+Hadoop Streaming实现MapReduce任务
- Hadoop MapReduce Streaming小实验:单词计数
- [Hadoop]MapReduce多路径输入与多个输入
- Hadoop MapReduce多路径输入和多个类型输入
- Hadoop MapReduce多路径输入与多个输入 例子
- Hadoop的MapReduce中多文件输出
- Hadoop的MapReduce中多文件输出
- ECMAScript5新加的数组操作
- Java方面的好书
- 单例模式
- maven初识
- Linux 下 apache启动、停止、重启命令
- Hadoop streaming mapreduce多文件输入使用方法
- 子沐课堂——MatPlotlib之四大金刚
- L2-013. 红色警报(并查集~)
- JS 判断本机网络状态
- WWW指南
- 跟我学系列,走进Scrapy爬虫(五)聊一聊Items
- linux 编译指定库、头文件的路径问题 (使用tslib函数出错)
- 算法设计与应用基础:第四周
- 【Web】JavaScript中的this陷阱(一)