Hadoop_Map中获取当前spilt文件名
来源:互联网 发布:关闭windows updata 编辑:程序博客网 时间:2024/06/06 02:47
有时候需要在Map类中的map函数中获取当前split所读取的文件名。
在旧版mapred下面实现方法如下:
// 获得输入文件的路径名
String path=((FileSplit)reporter.getInputSplit()).getPath().toString();
//使用Reporter reporter对象来获取,在新版mapreduce中,
Reporter reporter被封装在类MapContext中(StatusReporter reporter),
在map函数中就是Context context,实现方法应该类似,有兴趣的朋友可以试试。
-----------分割线----------->
import org.apache.hadoop.mapreduce.InputSplit;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;
InputSplit inputSplit = context.getInputSplit();
String fileName = ((FileSplit) inputSplit).getPath().toString();
刚刚搜索了下,新版中实现如下(转载,未测试,方法应该正确)
以下转载:
在mapper中获取当前正在处理的HDFS文件名/HDFS目录名
有时候,Hadoop是按行来对数据进行处理的,由于对每一行数据,map()函数会被调用一次,我们有时可以根据文件名/目录名来获取一些信息,从而把它们输出,例如,目录名中包含了日期,则我们可以取出来并输出到Reducer。在map()函数中,我们可以这样取文件名:
InputSplit inputSplit = context.getInputSplit();
String fileName = ((FileSplit) inputSplit).getName();
假设当前正在处理的HDFS文件路径为:/user/hadoop/abc/myFile.txt,则上面的 fileName 取到的是“myFile.txt”这样的字符串。但如果要获取其目录名“abc”,则可以这样做:
InputSplit inputSplit = context.getInputSplit();
String dirName = ((FileSplit) inputSplit).getPath().getParent().getName();
在旧版mapred下面实现方法如下:
// 获得输入文件的路径名
String path=((FileSplit)reporter.getInputSplit()).getPath().toString();
//使用Reporter reporter对象来获取,在新版mapreduce中,
Reporter reporter被封装在类MapContext中(StatusReporter reporter),
在map函数中就是Context context,实现方法应该类似,有兴趣的朋友可以试试。
-----------分割线----------->
import org.apache.hadoop.mapreduce.InputSplit;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;
InputSplit inputSplit = context.getInputSplit();
String fileName = ((FileSplit) inputSplit).getPath().toString();
刚刚搜索了下,新版中实现如下(转载,未测试,方法应该正确)
以下转载:
在mapper中获取当前正在处理的HDFS文件名/HDFS目录名
有时候,Hadoop是按行来对数据进行处理的,由于对每一行数据,map()函数会被调用一次,我们有时可以根据文件名/目录名来获取一些信息,从而把它们输出,例如,目录名中包含了日期,则我们可以取出来并输出到Reducer。在map()函数中,我们可以这样取文件名:
InputSplit inputSplit = context.getInputSplit();
String fileName = ((FileSplit) inputSplit).getName();
假设当前正在处理的HDFS文件路径为:/user/hadoop/abc/myFile.txt,则上面的 fileName 取到的是“myFile.txt”这样的字符串。但如果要获取其目录名“abc”,则可以这样做:
InputSplit inputSplit = context.getInputSplit();
String dirName = ((FileSplit) inputSplit).getPath().getParent().getName();
0 0
- Hadoop Map中获取当前spilt文件名
- Hadoop_Map中获取当前spilt文件名
- Hadoop_Map中获取当前spilt文件名
- Hadoop的map获取当前spilt文件名
- 在map中获取当前数据所属文件名
- Hadoop 中 获取 输入文件名
- hadoop 代码中获取文件名
- hadoop 代码中获取文件名
- hadoop中的Mapper实现类中map方法获取文件名时报错
- xslt中获取当前XML文件名
- vim 中 获取当前编辑文件名
- php 获取当前文件名
- Hadoop获取split文件名
- ruby 中如何获取当前的文件名和目录
- python hadoop 在streaming中获取文件名的方法
- .net 获取当前页面文件名
- 获取当前的类文件名
- Source Insight 获取当前文件名
- 辗转相除法
- 计算机硬盘
- 转发与重定向的区别
- 第三章 MQ队列管理器搭建之(三)
- 显卡声卡
- Hadoop_Map中获取当前spilt文件名
- ios百度地图遇到问题总结
- 找工作经历(供参考)
- android progressBar属性解析
- 在Struts2中使用ValueStack、ActionContext、ServletContext、request、session等
- 计算机网卡
- webservice 中WebMethod属性详解
- 第四章 查看MQ队列被哪些机器连接了
- 使用SQL 语句查询表中 每个属性值出现的次数