hadoop 学习笔记四 -----hadoop I/O

来源：互联网发布：域名ip地址url 编辑：程序博客网时间：2024/06/05 11:43

1.LocalFileSystem 执行客户端的校验和验证

public static void main(String[] args) throws Exception {String uri = args[0];Configuration conf = new Configuration();// 执行客户端的校验和验证，系统在么一个需操作的文件目录新建一个.filename.crc的隐藏文件，//大小由io.bytes.per.checksum控制FileSystem fs = new LocalFileSystem();fs.initialize(URI.create(uri), conf);}

2.RawLocalFileSystem 禁用校验的计算

public static void main(String[] args) throws Exception {String uri = args[0];Configuration conf = new Configuration();FileSystem fs = new RawLocalFileSystem();fs.initialize(URI.create(uri), conf);}

3.压缩

创建一个file.gz的压缩文件：gzip -p file

4.CompressionCodec 对数据流进行压缩和解压缩

public static void main(String[] args) throws Exception {//Configuration conf = new Configuration();CompressionCodec codec = (CompressionCodec) ReflectionUtils.newInstance(FileSystemCat.class, conf);CompressionOutputStream out = codec.createOutputStream(System.out);IOUtils.copyBytes(System.in, out, 4096, false);}

5.CompressionCodecFactory得到CompressionCodec

        public static void main(String[] args) throws Exception {String uri = args[0];Configuration conf = new Configuration();FileSystem fs = FileSystem.get(URI.create(uri), conf);CompressionCodecFactory factory = new CompressionCodecFactory(conf);CompressionCodec codec = factory.getCodec(new Path(uri));//...}

6.批量解压和压缩，使用codepool压缩池

public static void main(String[] args) throws Exception {String uri = args[0];Configuration conf = new Configuration();FileSystem fs = FileSystem.get(URI.create(uri), conf);CompressionCodecFactory factory = new CompressionCodecFactory(conf);CompressionCodec codec = factory.getCodec(new Path(uri));Compressor compressor = CodecPool.getCompressor(codec);CompressionOutputStream out =codec.createOutputStream(System.out, compressor);IOUtils.copyBytes(System.in, out, 4096, false);out.flush();CodecPool.returnCompressor(compressor);//不同的数据流之间可以来回复制数据，}

7.MapReduce作业输出进行压缩配置：mapred.output.compress设置为true，mapred.output.compression.codec属性设置为打算使用压缩的codec的类名

mapred.output.compression.type设置压缩格式，默认为RECORD：针对每条记录进行压缩，BLOCK：针对一组进行压缩（推荐）