hadoop的 pathfilter使用

来源:互联网 发布:知己而知彼的博客 kms 编辑:程序博客网 时间:2024/05/01 03:05

Hadoop的PathFilter使用

源码接口定义:

[java] view plain copy
 print?在CODE上查看代码片派生到我的代码片
  1. public interface PathFilter {  
  2.   /** 
  3.    * Tests whether or not the specified abstract pathname should be 
  4.    * included in a pathname list. 
  5.    * 
  6.    * @param  path  The abstract pathname to be tested 
  7.    * @return  <code>true</code> if and only if <code>pathname</code> 
  8.    *          should be included 
  9.    */  
  10.   boolean accept(Path path);  
  11. }  


用法:

[java] view plain copy
 print?在CODE上查看代码片派生到我的代码片
  1. static class TextPathFilter extends Configured implements PathFilter {  
  2.         @Override  
  3.         public boolean accept(Path path) {        
  4.             FileSystem fs;  
  5.             try {                 
  6.                 fs = FileSystem.get(getConf());  
  7.                 FileStatus fstatus = fs.getFileStatus(path);  
  8.                 List<String> lstName = new ArrayList<String>();  
  9.                 lstName.add("input1");  
  10.                 lstName.add("input2");  
  11.                 lstName.add("input3");  
  12.                 lstName.add("input4");                            
  13.                 if(fstatus.isDirectory()) {   //是目录的话返回true  
  14.                     return true;  
  15.                 }  
  16.                 if(fstatus.isFile() && lstName.contains(fstatus.getPath().getParent().getName())) {  //是文件的话且满足过滤条件返回true  
  17.                     return true;                                          
  18.                 }  
  19.             } catch (IOException e) {  
  20.                 e.printStackTrace();  
  21.             }  
  22.               
  23.             return false;  
  24.         }  
  25.           
  26.     }  


Driver类写的:

[java] view plain copy
 print?在CODE上查看代码片派生到我的代码片
  1. FileInputFormat.addInputPath(job, new Path(otherArgs[0]));    //输入路径  
  2. FileInputFormat.setInputDirRecursive(job, true);// 递归输入  
  3. FileInputFormat.setInputPathFilter(job, TextPathFilter.class);   //指定pathfilter类  
0 0