JSOUP学习笔记
来源:互联网 发布:relief算法应用 编辑:程序博客网 时间:2024/06/05 09:36
Jsoup简介
jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据
我们在爬虫采集网页领域 主要作用是 用HttpClient获取到网页后 具体的网页提取需要的信息的时候 ,就用到Jsoup,Jsoup可以使用强大的类似Jquery,css选择器,来获取需要的数据
Jsoup官方地址:https://jsoup.org/
Jsoup最新下载:https://jsoup.org/download
Jsoup文档:https://jsoup.org/cookbook/introduction/parsing-a-document
最新版Maven地址:
<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.10.2</version></dependency>
Jsoup HelloWorld实现
我们用Jsoup来提取下http://www.cnblogs.com/ 博客园的 网页title 标题 和 口号
这里我们要用到前面讲的HttpClient来获取网页内容:
pom.xml:
<!-- 添加HttpCient支持 --><dependency> <groupId>org.apache.httpcomponents</groupId> <artifactId>httpclient</artifactId> <version>4.5.2</version></dependency><!-- 添加Jsoup支持 --><dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.10.2</version></dependency>
实例代码:
public class Demo01 { public static void main(String[] args) throws Exception{ CloseableHttpClient httpclient = HttpClients.createDefault(); // 创建httpclient实例 HttpGet httpget = new HttpGet("http://www.cnblogs.com/"); // 创建httpget实例 CloseableHttpResponse response = httpclient.execute(httpget); // 执行get请求 HttpEntity entity=response.getEntity(); // 获取返回实体 String webContent=EntityUtils.toString(entity, "utf-8"); // System.out.println("网页内容:"+webContent); // 指定编码打印网页内容 response.close(); // 关闭流和释放系统资源 Document doc=Jsoup.parse(webContent);//解析网页得到文档对象 Elements elements=doc.getElementsByTag("title");//获取tag是title的所有DOM元素 Element element=elements.get(0);//获取第一个元素 String title=element.text();//返回元素的文本 System.out.println("网页标题是:"+title); Element element2=doc.getElementById("site_nav_top");//获取id为site_nav_top的DOM元素 String navTop=element2.text();//返回元素的文本 System.out.println("口号:"+navTop); }}
运行输出:
网页标题是:博客园 - 开发者的网上家园
口号:代码改变世界
Jsoup查找DOM元素
Jsoup提供了丰富的API来给我们查找我们需要的DOM元素:
这里例举一些常用的:
getElementById(String id) 根据id来查询DOM
getElementsByTag(String tagName) 根据tag名称来查询DOM
getElementsByClass(String className) 根据样式名称来查询DOM
getElementsByAttribute(String key) 根据属性名来查询DOM
getElementsByAttributeValue(String key,String value) 根据属性名和属性值来查询DOM
实例代码:
public class Demo2 { public static void main(String[] args) throws Exception{ CloseableHttpClient httpclient = HttpClients.createDefault(); // 创建httpclient实例 HttpGet httpget = new HttpGet("http://www.cnblogs.com/"); // 创建httpget实例 CloseableHttpResponse response = httpclient.execute(httpget); // 执行get请求 HttpEntity entity=response.getEntity(); // 获取返回实体 String content=EntityUtils.toString(entity, "utf-8"); response.close(); // 关闭流和释放系统资源 Document doc=Jsoup.parse(content); // 解析网页 得到文档对象 Element navTopElement=doc.getElementById("site_nav_top"); // 根据id来查询DOM String navTop=navTopElement.text(); // 返回元素的文本 System.out.println("口号:"+navTop); Elements titleElements=doc.getElementsByTag("title"); // 根据tag名称来查询DOM Element titleElement=titleElements.get(0); // 获取第1个元素 String title=titleElement.text(); // 返回元素的文本 System.out.println("网页标题是:"+title); Elements postItemElements=doc.getElementsByClass("post_item "); // 根据样式名称来查询DOM for(Element e:postItemElements){ System.out.println(e.html()); System.out.println("================"); } Elements widthElements=doc.getElementsByAttribute("width"); // 根据属性名来查询DOM for(Element e:widthElements){ System.out.println(e.toString()); System.out.println("================"); } System.out.println("target-_blank"); Elements targetElements=doc.getElementsByAttributeValue("target", "_blank"); // 根据属性名和属性值来查询DOM for(Element e:targetElements){ System.out.println(e.toString()); System.out.println("================"); } }}
Jsoup使用选择器语法查找DOM元素
我们前面通过标签名,Id,Class样式等来搜索DOM,这些是不能满足实际开发需求的
很多时候我们需要寻找有规律的DOM集合,很多个有规律的标签层次
这时候,选择器就用上了 css jquery都有,Jsoup支持css,jquery类似的选择器语法
这里给下实例:
public class Demo03 { public static void main(String[] args) throws Exception{ CloseableHttpClient httpclient = HttpClients.createDefault(); // 创建httpclient实例 HttpGet httpget = new HttpGet("http://www.cnblogs.com/"); // 创建httpget实例 CloseableHttpResponse response = httpclient.execute(httpget); // 执行get请求 HttpEntity entity=response.getEntity(); // 获取返回实体 String content=EntityUtils.toString(entity, "utf-8"); response.close(); // 关闭流和释放系统资源 Document doc=Jsoup.parse(content); // 解析网页 得到文档对象 Elements linkElements=doc.select(".post_item .post_item_body h3 a"); // 查找所有帖子DOM for(Element e:linkElements){ System.out.println("博客标题:"+e.text()); System.out.println("-------------"); } Elements hrefElements=doc.select("a[href]"); // 带有href属性的a元素 for(Element e:hrefElements){ System.out.println(e.toString()); System.out.println("-------------"); } Elements imgElements=doc.select("img[src$=.png]"); // 查找扩展名为.png的图片DOM节点 for(Element e:imgElements){ System.out.println(e.toString()); System.out.println("-------------"); } Element element=doc.getElementsByTag("title").first(); // 获取tag是title的所有DOM元素 String title=element.text(); // 返回元素的文本 System.out.println("网页标题是:"+title); }}
Jsoup获取DOM元素属性值
比如我们要获取博客的href属性值:
我们这时候就要用到Jsoup来获取属性的值 :
我们给下示例代码:
public class Demo04 { public static void main(String[] args) throws Exception{ CloseableHttpClient httpclient = HttpClients.createDefault(); // 创建httpclient实例 HttpGet httpget = new HttpGet("http://www.cnblogs.com/"); // 创建httpget实例 CloseableHttpResponse response = httpclient.execute(httpget); // 执行get请求 HttpEntity entity=response.getEntity(); // 获取返回实体 String content=EntityUtils.toString(entity, "utf-8"); response.close(); // 关闭流和释放系统资源 Document doc=Jsoup.parse(content); // 解析网页 得到文档对象 Elements linkElements=doc.select("#post_list .post_item .post_item_body h3 a"); //通过选择器查找所有博客链接DOM for(Element e:linkElements){ System.out.println("博客标题:"+e.text()); System.out.println("博客地址:"+e.attr("href")); System.out.println("target:"+e.attr("target")); } Element linkElement=doc.select("#friend_link").first(); System.out.println("纯文本:"+linkElement.text()); System.out.println("html:"+linkElement.html()); }}
使用Jsoup解析出html中的img元素
博客项目有个需求。展示博客列表的时候,显示一些博客里的图片,增强用户体验
这里的话,有两种方案,第一种 是在后台处理,把解析好的图片存集合里,然后转发到页面,遍历显示;还有一种是把博客内容送到页面,用Jquery处理
我考虑了下。还是在后台处理好比较好,因为项目本身用到了 cnd加速,所以在前端处理反而影响效率
在后端处理,可以使用Jsoup,很方便
这里给下关键代码:
for(Blog blog:blogList){ List<String> imagesList=blog.getImagesList(); String blogInfo=blog.getContent(); Document doc=Jsoup.parse(blogInfo); Elements jpgs=doc.select("img[src$=.jpg]"); // 查找扩展名是jpg的图片 for(int i=0;i<jpgs.size();i++){ Element jpg=jpgs.get(i); imagesList.add(jpg.toString()); if(i==2){ break; } }}
- jsoup 学习笔记
- Jsoup 学习笔记
- Jsoup 学习笔记
- jsoup 学习笔记
- JSOUP学习笔记
- Jsoup(1.7.3)学习笔记
- Jsoup学习笔记3:Jsoup 解析Html源码实例
- Jsoup学习笔记4:Jsoup 解析Html源码实例
- Android学习笔记:Jsoup解析、截取HTML
- Jsoup学习笔记1:解析字符串
- Jsoup学习笔记10:Saz2Csv解析器
- HTML 解析器---Jsoup学习笔记
- Jsoup学习
- jsoup学习
- Jsoup学习
- jsoup学习
- Jsoup学习
- Jsoup学习
- 特征工程
- BEM命名方式
- 2017-Java面试必看问题之一
- 【Java8源码分析】NIO包-FileChannel
- 关于Error: ARCH: Unsupported platform.
- JSOUP学习笔记
- 广播接收者之有序广播
- Android Binder Java
- Java分布式应用技术架构介绍
- 如何利用jqGrid表格方法重新设置caption属性值
- 在不使用额外空间的前提下,将数组的偶数放到数组的奇数前面 | Python
- Codeforces Round #418 (Div. 2) 题解 ABC
- 使用CSS确定HTML中的断句格式——你真的了解word-wrap和word-break的区别吗
- 后台启动zookeeper