如何采用htmlParser来获取网络资源

来源：互联网发布：限韩令影响知乎编辑：程序博客网时间：2024/06/05 15:02

import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.TagNameFilter;
import org.htmlparser.util.NodeList;
/**
* Author: crazy_rain
* Date: 2007-3-13
* Time: 下午12:55:42
* Introduction:网络资源抓取器,htmlParser 使用小结
*/
public class ResourceFetcher {

public static void parseResource(String url) throws Exception {
  Parser p = new Parser(url);
  NodeFilter filter = new TagNameFilter("HEAD");
  // NodeFilter nf = new NodeClassFilter(ImageTag.class);
  // NodeFilter nf = new NodeClassFilter(BodyTag.class);
  // NodeFilter nf = new NodeClassFilter(InputTag.class);
  // NodeFilter nf = new NodeClassFilter(Html.class);
  // NodeFilter nf = new NodeClassFilter(HeadTag.class);
  // NodeFilter nf = new NodeClassFilter(LinkTag.class);
  // NodeFilter nf = new NodeClassFilter(ScriptTag.class);
  NodeList nl = p.extractAllNodesThatMatch(filter);
  for (int i = 0; i < nl.size(); i++) {
   System.out.println(nl.elementAt(i).toHtml());
  }
}
public static void main(String args[]) throws Exception{
  parseResource("http://www.zzu.edu.cn");
}

}