如何采用htmlParser来获取网络资源

来源:互联网 发布:限韩令影响知乎 编辑:程序博客网 时间:2024/06/05 15:02

 import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.TagNameFilter;
import org.htmlparser.util.NodeList;
/**
 * Author: crazy_rain
 * Date: 2007-3-13
 * Time: 下午12:55:42
 * Introduction:网络资源抓取器,htmlParser 使用小结
 */
public class ResourceFetcher {

 public static void parseResource(String url) throws Exception {
  Parser p = new Parser(url);
  NodeFilter filter = new TagNameFilter("HEAD");
  // NodeFilter nf = new NodeClassFilter(ImageTag.class);
  // NodeFilter nf = new NodeClassFilter(BodyTag.class);
  // NodeFilter nf = new NodeClassFilter(InputTag.class);
  // NodeFilter nf = new NodeClassFilter(Html.class);
  // NodeFilter nf = new NodeClassFilter(HeadTag.class);
  // NodeFilter nf = new NodeClassFilter(LinkTag.class);
  // NodeFilter nf = new NodeClassFilter(ScriptTag.class);
  NodeList nl = p.extractAllNodesThatMatch(filter);
  for (int i = 0; i < nl.size(); i++) {
   System.out.println(nl.elementAt(i).toHtml());
  }
 }
 public static void main(String args[]) throws Exception{
  parseResource("http://www.zzu.edu.cn");
 }

}

原创粉丝点击