JSOUP学习笔记

来源：互联网发布：relief算法应用编辑：程序博客网时间：2024/06/05 09:36

Jsoup简介

jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据

我们在爬虫采集网页领域主要作用是用HttpClient获取到网页后具体的网页提取需要的信息的时候，就用到Jsoup，Jsoup可以使用强大的类似Jquery,css选择器，来获取需要的数据

Jsoup官方地址：https://jsoup.org/

Jsoup最新下载：https://jsoup.org/download

Jsoup文档：https://jsoup.org/cookbook/introduction/parsing-a-document

最新版Maven地址：

<dependency>    <groupId>org.jsoup</groupId>    <artifactId>jsoup</artifactId>    <version>1.10.2</version></dependency>

Jsoup HelloWorld实现

我们用Jsoup来提取下http://www.cnblogs.com/ 博客园的网页title 标题和口号

这里我们要用到前面讲的HttpClient来获取网页内容：

pom.xml：

<!-- 添加HttpCient支持 --><dependency>    <groupId>org.apache.httpcomponents</groupId>    <artifactId>httpclient</artifactId>    <version>4.5.2</version></dependency><!-- 添加Jsoup支持 --><dependency>    <groupId>org.jsoup</groupId>    <artifactId>jsoup</artifactId>    <version>1.10.2</version></dependency>

实例代码：

public class Demo01 {    public static void main(String[] args) throws Exception{        CloseableHttpClient httpclient = HttpClients.createDefault(); // 创建httpclient实例        HttpGet httpget = new HttpGet("http://www.cnblogs.com/"); // 创建httpget实例        CloseableHttpResponse response = httpclient.execute(httpget); // 执行get请求        HttpEntity entity=response.getEntity(); // 获取返回实体        String webContent=EntityUtils.toString(entity, "utf-8");        // System.out.println("网页内容："+webContent); // 指定编码打印网页内容        response.close(); // 关闭流和释放系统资源        Document doc=Jsoup.parse(webContent);//解析网页得到文档对象        Elements elements=doc.getElementsByTag("title");//获取tag是title的所有DOM元素        Element element=elements.get(0);//获取第一个元素        String title=element.text();//返回元素的文本        System.out.println("网页标题是："+title);        Element element2=doc.getElementById("site_nav_top");//获取id为site_nav_top的DOM元素        String navTop=element2.text();//返回元素的文本        System.out.println("口号："+navTop);    }}

运行输出：

网页标题是：博客园 - 开发者的网上家园

口号：代码改变世界

Jsoup查找DOM元素

Jsoup提供了丰富的API来给我们查找我们需要的DOM元素：

这里例举一些常用的：

getElementById(String id) 根据id来查询DOM

getElementsByTag(String tagName) 根据tag名称来查询DOM

getElementsByClass(String className) 根据样式名称来查询DOM

getElementsByAttribute(String key) 根据属性名来查询DOM

getElementsByAttributeValue(String key,String value) 根据属性名和属性值来查询DOM

实例代码：

public class Demo2 {    public static void main(String[] args) throws Exception{        CloseableHttpClient httpclient = HttpClients.createDefault(); // 创建httpclient实例        HttpGet httpget = new HttpGet("http://www.cnblogs.com/"); // 创建httpget实例        CloseableHttpResponse response = httpclient.execute(httpget); // 执行get请求        HttpEntity entity=response.getEntity(); // 获取返回实体        String content=EntityUtils.toString(entity, "utf-8");        response.close(); // 关闭流和释放系统资源        Document doc=Jsoup.parse(content); // 解析网页 得到文档对象        Element navTopElement=doc.getElementById("site_nav_top"); // 根据id来查询DOM        String navTop=navTopElement.text(); // 返回元素的文本        System.out.println("口号："+navTop);        Elements titleElements=doc.getElementsByTag("title"); // 根据tag名称来查询DOM        Element titleElement=titleElements.get(0); // 获取第1个元素        String title=titleElement.text(); // 返回元素的文本        System.out.println("网页标题是："+title);        Elements postItemElements=doc.getElementsByClass("post_item "); // 根据样式名称来查询DOM        for(Element e:postItemElements){            System.out.println(e.html());            System.out.println("================");        }        Elements widthElements=doc.getElementsByAttribute("width"); // 根据属性名来查询DOM        for(Element e:widthElements){            System.out.println(e.toString());            System.out.println("================");        }        System.out.println("target-_blank");        Elements targetElements=doc.getElementsByAttributeValue("target", "_blank");  // 根据属性名和属性值来查询DOM        for(Element e:targetElements){            System.out.println(e.toString());            System.out.println("================");        }             }}

Jsoup使用选择器语法查找DOM元素

我们前面通过标签名，Id，Class样式等来搜索DOM，这些是不能满足实际开发需求的

很多时候我们需要寻找有规律的DOM集合，很多个有规律的标签层次

这时候，选择器就用上了 css jquery都有，Jsoup支持css,jquery类似的选择器语法

这里给下实例：

public class Demo03 {    public static void main(String[] args) throws Exception{        CloseableHttpClient httpclient = HttpClients.createDefault(); // 创建httpclient实例        HttpGet httpget = new HttpGet("http://www.cnblogs.com/"); // 创建httpget实例        CloseableHttpResponse response = httpclient.execute(httpget); // 执行get请求        HttpEntity entity=response.getEntity(); // 获取返回实体        String content=EntityUtils.toString(entity, "utf-8");        response.close(); // 关闭流和释放系统资源        Document doc=Jsoup.parse(content); // 解析网页 得到文档对象        Elements linkElements=doc.select(".post_item .post_item_body h3 a"); // 查找所有帖子DOM        for(Element e:linkElements){            System.out.println("博客标题："+e.text());            System.out.println("-------------");        }        Elements hrefElements=doc.select("a[href]"); // 带有href属性的a元素        for(Element e:hrefElements){            System.out.println(e.toString());            System.out.println("-------------");        }        Elements imgElements=doc.select("img[src$=.png]"); // 查找扩展名为.png的图片DOM节点        for(Element e:imgElements){            System.out.println(e.toString());            System.out.println("-------------");        }        Element element=doc.getElementsByTag("title").first(); // 获取tag是title的所有DOM元素        String title=element.text(); // 返回元素的文本        System.out.println("网页标题是："+title);    }}

Jsoup获取DOM元素属性值

比如我们要获取博客的href属性值：

我们这时候就要用到Jsoup来获取属性的值：

我们给下示例代码：

public class Demo04 {    public static void main(String[] args) throws Exception{        CloseableHttpClient httpclient = HttpClients.createDefault(); // 创建httpclient实例        HttpGet httpget = new HttpGet("http://www.cnblogs.com/"); // 创建httpget实例        CloseableHttpResponse response = httpclient.execute(httpget); // 执行get请求        HttpEntity entity=response.getEntity(); // 获取返回实体        String content=EntityUtils.toString(entity, "utf-8");        response.close(); // 关闭流和释放系统资源        Document doc=Jsoup.parse(content); // 解析网页 得到文档对象        Elements linkElements=doc.select("#post_list .post_item .post_item_body h3 a"); //通过选择器查找所有博客链接DOM        for(Element e:linkElements){            System.out.println("博客标题："+e.text());            System.out.println("博客地址："+e.attr("href"));            System.out.println("target:"+e.attr("target"));        }        Element linkElement=doc.select("#friend_link").first();        System.out.println("纯文本："+linkElement.text());        System.out.println("html："+linkElement.html());        }}

使用Jsoup解析出html中的img元素

博客项目有个需求。展示博客列表的时候，显示一些博客里的图片，增强用户体验

这里的话，有两种方案，第一种是在后台处理，把解析好的图片存集合里，然后转发到页面，遍历显示；还有一种是把博客内容送到页面，用Jquery处理

我考虑了下。还是在后台处理好比较好，因为项目本身用到了 cnd加速，所以在前端处理反而影响效率

在后端处理，可以使用Jsoup，很方便

这里给下关键代码：

for(Blog blog:blogList){    List<String> imagesList=blog.getImagesList();    String blogInfo=blog.getContent();    Document doc=Jsoup.parse(blogInfo);    Elements jpgs=doc.select("img[src$=.jpg]"); //　查找扩展名是jpg的图片    for(int i=0;i<jpgs.size();i++){        Element jpg=jpgs.get(i);        imagesList.add(jpg.toString());        if(i==2){            break;        }    }}

阅读全文

1 0