Hadoop自定义InputFormat
来源:互联网 发布:淘宝说防举报的可信吗 编辑:程序博客网 时间:2024/06/16 04:22
接触hadoop一年多了,但是自己一直没有用hadoop写过什么程序。最近,由于项目需要,将一些文件转换成hadoop的MapFile。网上的例子基本是直接处理文本输入,自定义输入格式的见到两个,但是都是用的旧的API,用新API写的还没有,可能高手不屑于写这些。但是处理自定义输入是每个用hadoop的人都要学会才行的,因为不是每个人的输入都是文本文件。
数据输入是hadoop的第一步,不能读自己的数据,后面的处理就无从谈起。文本格式处理起来容易些,对于二进制格式的文件,虽然hadoop有一个SequenceFileInputFormat,可以先把自己的数据转成SequenceFile,再处理,但是这样要多一倍的处理时间、存储空间。无奈之下,参考了hadoop的源代码,自己写了个ConverterInputFormat,在这里贴出来,供大家参考。
代码是基于hadoop 0.20的,其中的FetcherOutput是用Java的DataOutputStream写入到本地磁盘的,可以换成自己想要的格式。
ConvertertRecordReader好像必须有个默认的构造器。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
package
com.randyho.hadoop.converter;
import
java.io.DataInputStream;
import
java.io.IOException;
import
org.apache.hadoop.conf.Configuration;
import
org.apache.hadoop.fs.FileSystem;
import
org.apache.hadoop.fs.Path;
import
org.apache.hadoop.io.Text;
import
org.apache.hadoop.mapreduce.InputSplit;
import
org.apache.hadoop.mapreduce.JobContext;
import
org.apache.hadoop.mapreduce.RecordReader;
import
org.apache.hadoop.mapreduce.TaskAttemptContext;
import
org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import
org.apache.hadoop.mapreduce.lib.input.FileSplit;
import
com.randyho.FetcherOutput;
public
class
ConverterInputFormat
extends
FileInputFormat<Text, FetcherOutput> {
// Do not split files.
protected
boolean
isSplitable(JobContext context, Path file) {
return
false
;
}
public
RecordReader<Text, FetcherOutput> createRecordReader(
InputSplit split, TaskAttemptContext context)
throws
IOException,
InterruptedException {
return
new
ConvertertRecordReader();
}
class
ConvertertRecordReader
extends
RecordReader<Text, FetcherOutput> {
private
DataInputStream dis;
private
Text key =
null
;
private
FetcherOutput value;
private
boolean
more =
true
;
private
Configuration conf;
public
ConvertertRecordReader(){
key =
new
Text();
value =
new
FetcherOutput();
more =
true
;
}
public
void
close()
throws
IOException {
if
(dis !=
null
) {
dis.close();
}
}
public
Text getCurrentKey()
throws
IOException, InterruptedException {
return
key;
}
public
FetcherOutput getCurrentValue()
throws
IOException,
InterruptedException {
return
value;
}
public
float
getProgress()
throws
IOException, InterruptedException {
return
more ? 0f : 100f;
}
public
void
initialize(InputSplit gensplit, TaskAttemptContext context)
throws
IOException, InterruptedException {
FileSplit split = (FileSplit) gensplit;
conf = context.getConfiguration();
Path file = split.getPath();
FileSystem fs = file.getFileSystem(conf);
System.out.println(
"reading: "
+ file);
// open the file
dis = fs.open(split.getPath());
}
public
boolean
nextKeyValue()
throws
IOException, InterruptedException {
if
(dis.available() !=
0
) {
value.readFields(dis);
key.set(value.getUrl());
return
true
;
}
else
{
more =
false
;
return
false
;
}
}
}
}
本人也是新学,对hadoop也不是很熟悉,如果有更好的方式,恳请赐教。
- Hadoop自定义InputFormat
- hadoop自定义InputFormat
- Hadoop自定义InputFormat
- 自定义hadoop的inputformat
- 自定义hadoop的InputFormat
- hadoop 自定义inputformat和outputformat
- Hadoop 自定义InputFormat实现自定义Split
- Hadoop 自定义InputFormat实现自定义Split
- 自定义 hadoop MapReduce InputFormat 切分输入文件
- 自定义 hadoop MapReduce InputFormat 切分输入文件
- hadoop自定义InputFormat,OutputFormat输入输出类型
- Hadoop:自定义输入文件格式类InputFormat
- 自定义 hadoop MapReduce InputFormat 切分输入文件
- 自定义 hadoop MapReduce InputFormat 切分输入文件
- 自定义 hadoop MapReduce InputFormat 切分输入文件
- hadoop自定义输入格式(InputFormat)
- 自定义InputFormat
- 自定义InputFormat
- 【解题报告】NYOJ 518 取球游戏 -- 简单博弈
- CentOS 5上iSCSI+GFS共享存储的实现(可以参考)
- Microsoft 群集服务 (MSCS) 简介
- MATLAB GUI界面之间的数据传递
- Tomcat7 与 maven
- Hadoop自定义InputFormat
- xp下用mingw编译rtmpdump生成librtmp.dll
- 10887 - Concatenation of Languages
- 单例与原型
- hdu_4325 Flowers(离散化+线段树)
- Windows 2000 MSCS 群集 iscsi 安装手册
- android listview刷新
- WinRAR在DOS下压缩/解压缩的使用方法
- Android Drawable绘图学习笔记