Jsoup-简单优雅的HTML dom解析工具

来源:互联网 发布:四川大学自考网络班 编辑:程序博客网 时间:2024/06/05 01:14

最近在做一个项目,需要在线从官网上下载选手的图片、名称信息,即做一个简易的网络爬虫,实时抓取最新官网选手数据。在网上搜了很多开源工具,一开始试的是webharvest,搞了一个上午,终于被其奇怪的配置文件搞怕了,我就是想链接下载一个在线的HTML页面,然后解析其DOM元素,没有更好的工具吗?

终于,在google上找到了Jsoup,其官网(http://jsoup.org/)上的demo神奇的只有两句话

Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
Elements newsHeadlines = doc.select("#mp-itn ba");

   你没看错,他可以直接根据你给的链接返回dom,并像jquery那样按照元素类型、ID、CSS样式过滤你要找的dom元素,所有返回的元素都放在Elements中,每个Elements中的元素也可包含子元素,层级清晰。

为什么用Jsoup:

1-没有依赖包,是的,你只要下载(http://jsoup.org/download)jsoup包,放在lib引用中,或者你的团队用Maven,在pom文件中加入如下依赖

<dependency>  <!-- jsoup HTML parser library @ http://jsoup.org/ -->  <groupId>org.jsoup</groupId>  <artifactId>jsoup</artifactId>  <version>1.7.2</version></dependency>

2-语法简单,如果你用过CSS,抑或Jquery,或者在web前端操作过DOM,恭喜你,你会爱上Jsoup。

下面给出代码,大概逻辑是在线下载2013快乐男生66强资料,并显示他们的名称,图片链接地址。

public static void main(String[]args) throwsFileNotFoundException{

            try {

       Documentdocument = Jsoup.connect("http://www.hunantv.com/v/2013/2013superboy/xs/").get();

       Elementselements = document.select(".LD-A");

       StringnameString = "(";

       String[]names= new String[20];

       intj =0;

       for(int i = 0; i < elements.size(); i++) {

           Element element = elements.get(i);

           Elements ss = element.getElementsByTag("h4");

           Elements img = element.getElementsByTag("img");

           String textString = ss.get(0).text();

           if(!(textString.indexOf("")>=0&& textString.indexOf("") >=0) &&

                !(textString.indexOf("")>=0&& textString.indexOf("1") >=0)

                  ){

              StringplayerName = textString;

              StringimgUrl = img.attr("src").toString();

              imgUrl= "/activity/images/superboy/" + PinYinTest.getPinyin(playerName)+".jpg";

              System.err.println("('"+playerName +"','"+ imgUrl +"',1,''),");          

              }

       }

    }catch (IOException e) {

       //TODO Auto-generated catch block

       e.printStackTrace();

}

}