网页抓取方式(二)--Jsoup

来源:互联网 发布:skype mac 编辑:程序博客网 时间:2024/05/16 11:05

一、Jsoup简介

Jsoup是另一种抓取网页的方式,相比httpclient,它的功能更丰富些,优点如:

1、可以根据抓取的网页生成DOM树,可以将抓取的网页规范化,如补全有开始没结束的标签;

2、可以根据css选择器查找、取出数据;

3、提供类似jquery方式提取数据;

4、抓取速度也很快;

缺点:不支持javascript

二、实例

1、添加maven依赖

<dependency>    <groupId>org.jsoup</groupId>    <artifactId>jsoup</artifactId>    <version>1.10.2</version></dependency>
2、代码实例

public class JsoupCrawlerMain {    public static void main(String[] args) throws Exception {        jsoupCrawler();    }    static void jsoupCrawler() throws Exception {        String url = "http://www.ifeng.com/";        Document doc = Jsoup.connect(url)                .timeout(5000)                .get();        Elements eles = doc.select("#headLineDefault > h1 > a");        if(Objects.nonNull(eles)){            String result = eles.text().trim();            System.out.println("ifeng headline is : " + result);        }    }}
运行结果:

ifeng headline is : 习近平出席上合成员国元首理事会会议