读取hadoop Sequence格式的文件的代码

来源:互联网 发布:java 正则ip和端口号 编辑:程序博客网 时间:2024/06/11 03:14

http://blog.csdn.net/longerandlonger/article/details/8482477


[java] view plaincopy
  1. public static void main(String[] args) {  
  2.     org.apache.hadoop.io.SequenceFile.Reader reader = null;  
  3.     java.io.FileOutputStream fos = null;  
  4.     try {  
  5.         String uri = "file:///D:/attempt_201212181734_2923950_r_000000_0";  
  6.         org.apache.hadoop.conf.Configuration conf = new org.apache.hadoop.conf.Configuration();  
  7.         FileSystem fs = FileSystem.get(conf);  
  8.         Path path = new Path(uri);  
  9.         reader = new org.apache.hadoop.io.SequenceFile.Reader(fs, path, conf);  
  10.         Writable key = (Writable) org.apache.hadoop.util.ReflectionUtils.newInstance(reader.getKeyClass(), conf);  
  11.         Writable value = (Writable) org.apache.hadoop.util.ReflectionUtils.newInstance(reader.getValueClass(), conf);  
  12.           
  13.         int n=0;  
  14.         while(reader.next(key, value)){  
  15.             /* 如果解析出是乱码,尝试用户UTF8转码 */  
  16.             //String valueStr = new String(value.toString().getBytes("ISO8859_1"),"GB2312");  
  17.             System.out.println(value.toString());  
  18.         }  
  19.     } catch (Exception e) {  
  20.         e.printStackTrace();  
  21.     } finally {  
  22.         IOUtils.closeStream(reader);  
  23.         IOUtils.closeStream(fos);  
  24.     }  
  25. }  

0 0
原创粉丝点击