Hadoop Sequence File 文件的读取和写入

来源:互联网 发布:扑克牌喝酒游戏知乎 编辑:程序博客网 时间:2024/06/03 15:01

         SequenceFile文件是Hadoop用来存储二进制形式的key-value对而设计的一种平面文件(Flat File)。目前,也有不少人在该文件的基础之上提出了一些HDFS中小文件存储的解决方案,他们的基本思路就是将小文件进行合并成一个大文件,同时对这些小文件的位置信息构建索引。不过,这类解决方案还涉及到Hadoop的另一种文件格式——MapFile文件。SequenceFile文件并不保证其存储的key-value数据是按照key的某个顺序存储的,同时不支持append操作。在SequenceFile文件中,每一个key-value被看做是一条记录(Record),因此是基于Record的压缩策略.



写入代码

下面是写入了100条(key,value)的信息,其中以LongWriable为key,以Text作为value.

        Configuration config = new Configuration();        FileSystem fs  = FileSystem.get(conf);        int i = 0;        Path path = new Path("/home/lake/hello.xml");        SequenceFile.Writer writer = null;        SequenceFile.Writer.Option optPath = SequenceFile.Writer.file(path);        //定义key        SequenceFile.Writer.Option optKey = SequenceFile.Writer.keyClass(LongWritable.class);        //定义value        SequenceFile.Writer.Option optVal = SequenceFile.Writer.valueClass(Text.class);        writer = SequenceFile.createWriter(conf, optPath, optKey, optVal);        //写入的数据可以根据你的情况来定,我这只是测试        String value = "hello world";        while(i < 100){            writer.append(new LongWritable(i),new Text(value));            i ++;        }        writer.close();
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20

上面程序运行完成之后,就可以在指定的路径上看到产生的文件。

读取的代码

                Configuration config = new Configuration();                FileSystem fs  = FileSystem.get(conf);                Path path = new Path("/home/lake/hello.xml");                SequenceFile.Reader reader = new SequenceFile.Reader(fs.getConf(), SequenceFile.Reader.file(path));                List<Object> sampleValues = new ArrayList<Object>();                Writable key = (Writable) ReflectionUtils.newInstance(reader.getKeyClass(), fs.getConf());                Writable value = (Writable) ReflectionUtils.newInstance(reader.getValueClass(), fs.getConf());                int count = 0;                String keyName = "Key";                String valueName = "Value";                //change data to json format                while (reader.next(key, value) && count < 12) {sampleValues.add("{\"" + keyName + "\": \"" + key + "\", \"" + valueName + "\": \"" + value + "\"}");                    count++;                }
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
原创粉丝点击