SequenceFile类
来源:互联网 发布:淘宝韩版女装图片 编辑:程序博客网 时间:2024/05/16 07:05
Hadoop的SequenceFile类为二进制键值对提供了一个持续化的数据结构。它提供了 Writer, Reader and SequenceFile.Sorter 类能独立执行读、写以及排序操作。
如果想应用于日志文件格式,需要选择一个键(如LongWritable表示时间戳)和一个值(如Writable表示日志记录的数量)。
用SequenceFile类作为小型文件的容器也不错。HDFS和MapReduce是大型文件的利器,当我们把文件打包到一个SequenceFile类中,我们能够高效对小型文件进程存储和处理。
(1)创建一个SequenceFile类
该类提供了一种静态方法创建SequenceFile.Writer实例。而且有几个重载方法。hadoop推荐使用静态构造方法如下:
public static org.apache.hadoop.io.SequenceFile.Writer createWriter( FileContext fc, //文件上下文 Configuration conf, //配置信息 Path name, //文件path Class keyClass, //键类 Class valClass, //值类 CompressionType compressionType, //压缩类型 CompressionCodec codec, //压缩器 Metadata metadata, //文件头部metadata EnumSet<CreateFlag> createFlag, //给出创建的语义如overwrite org.apache.hadoop.fs.Options.CreateOpts... opts) //可选项 throws IOException
存储在SequenceFile类中的键和值不一定必须是Writable。可以被SequenceFile类序列化和反序列的任何类型都可以使用。
在SequencdFile.Writer之后,就用append()方法写入键/值对。然后在结束的时候调用close()方法。(SequenceFile.Write实现了java.io.Closeable)。
下面就是一个SequenceFile类的程序例子:
public static void main(String[] args) throws IOException(
String uri = args[0]; //创建FileSystem的步骤已经在学习小结一中学过,这里就不再做介绍
Configuration conf = new Configuration();
FileSystem fs = FileSystem.gei(URI.create(uri), conf);
Paht path = new Path(uri);
IntWritable key = new IntWritable(); //创建键
Text value = new Text(); //创建值
SequencdFile.Writer writer = null;
try{
writer = SequencdFile.createWriter(fs,conf,path,key.getClass(),value.getClass() ); //创建Writer
key.set(data);
value.set(data);
writer.append(key,value);
}finally{
IOUtils.closeStream(writer);
}
}
(2)读取SequenceFile类
从头到尾读取序列文件,需要创建一个SequenceFile.Reader实例。反复调用next()方法之一遍历记录。使用哪一方法取决于所使用的序列化框架。比如Writable类型,可以为:
public boolean next(Writable key, Writable value); //使用键值作为参数,如果读取是一个键值对,返回true。如果读取到文件末尾,返回false。
下面就是一个读取序列文件的例子:
public static void main(String[] args){
String uri = args[0];
Configuration conf = new Configuration();
FileSystem fs = FileSystem.get(URI.create(uri),conf);
Path path = new Path(uri);
SequenceFile.Reader reader = null;
try{
reader = new SequenceFile.Reader(fs,path,conf);
Writable key = (Writable) ReflectionUtils.newInstance(reader.getKeyClass(), conf); //使用Reflection工具类创建key的一个实例
Writable key = (Writable) ReflectionUtils.newInstance(reader.getValueClass(), conf);
long position = reader.getPosition(); //取得reader当前位置
while(reader.next(key,value)){ //不断往下读取
String syncSeen = reader.syncSeen() ? " * " : " "; //插入同步点
System.out.printf(position,syncSeen,key,value);
position = reader.getPosition();
}
}finally{
IOUtils.closeStream(reader);
}
}
此程序能显示序列文件中同步点的位置。同步点是流中的一个点,如果reader失去对位置的判断,同步点就可用于重新同步记录边界,例如在查找流中任意一个位置之后。同步点由SequenceFile.Reader来记录,当序列文件被写入的时候,它会每隔几个记录就插入一个特殊的项来标记此同步点。插入的开销非常小。上面我就使用星号*标记同步点。
有两种方法查找序列文件中指定的位置。第一种是seek()方法,第二种是sync(long position)方法。
序列文件的格式
序列文件由一个头部和一个或多个记录组成。
序列文件有三种类型,分别为1无压缩类型,2有压缩类型,3和块压缩类型。它们的记录组成不同,但序列文件头都相同。
SequenceFile 头格式:
- version - 3 字节SEQ,后接1字节版本号
- keyClassName -键类名
- valueClassName - 值类名
- compression - 布尔类型,标识是否对键值对启用压缩
- blockCompression - 布尔类型,标识是否对键值对启用块压缩
- compression codec - 编码解码器类型
- metadata - SequenceFile的Metadata
- sync - 一个同步标记记录头结尾
取决于是否启用压缩,如果是,要么是记录压缩,要么是块压缩。
1无压缩类型:如果没有启用压缩(默认设置)那么每个记录就由它的记录长度(字节数)、键的长度,键和值组成。长度字段为四字节。
2有压缩类型:记录压缩格式与无压缩格式基本相同,不同的是值字节是用定义在头部的编码器来压缩。注意,键是不压缩的。
3块压缩类型:块压缩一次压缩多个记录,因此它比记录压缩更紧凑,而且一般优先选择。当记录的字节数达到最小大小,才会添加到块。该最小值由io.seqfile.compress.blocksize中的属性定义。默认值是1000000字节。格式为记录数、键长度、键、值长度、值。
- SequenceFile类
- SequenceFile
- SequenceFile
- sequencefile
- mapreduce 编程SequenceFile类的使用
- hadoop中的文件接口类-- SequenceFile
- mapreduce中的sequenceFile类,MapFile解析
- SequenceFile与MapFile &hdfs的主要API类--FileSystem FSDataInputStream
- SequenceFile文件
- SequenceFile文件
- SequenceFile文件
- Hadoop SequenceFile
- sequencefile header
- Hadoop SequenceFile
- SequenceFile文件
- SequenceFile文件
- hadoop SequenceFile
- hadoop SequenceFile
- poj3487 & hdu1914 The Stable Marriage Problem 稳定婚姻系统
- 在Android studio中进行NDK开发
- View类的XML属性
- 9.7数学与概率(五)——功能:有些数的素数因子只有3、5、7,找出其中第k个数
- HEVC码率控制算法研究与HM相应代码分析(二)——新的码率控制模型
- SequenceFile类
- Oracle 实现跨库查询
- 最简单简洁高效的Json数据解析
- Android WebView加载html文本时,图片太大不能适配屏幕
- 9.7数学与概率(六)——检查一个数是否为素数
- android_Color.RGB 颜色之间渐变基本算法
- bs4 的一个报错
- 数据结构学习---线性表链表实现
- 9.7数学与概率(七)——检查n能否被素数整除