【Java Utility】Jsoup网页爬虫工具-使用选择器查找元素【八】
来源:互联网 发布:2k17mc模式奥尼尔数据 编辑:程序博客网 时间:2024/06/08 13:57
原文出自https://jsoup.org/cookbook/extracting-data/selector-syntax
需求:
使用CSS或JQuery语法的选择器来查找或操作元素
解决方案:
使用方法Element.select(String selector)及Elements.select(String selector)
File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");
Elements links = doc.select("a[href]"); // 超链接
Elements pngs = doc.select("img[src$=.png]"); // png格式的图片
Jsoup元素集支持类似CSS或JQuery语法的选择器来查找匹配的元素。
选择器概览
tagname: //tag标签查找
ns|tag:/ /名称空间+tag标签查找
#id: //id查找
.class: //class名查找
[attribute]: //属性名查找
[^attr]: //属性名前缀查找
[attr=value]: //属属性值查找性名+
[attr^=value], [attr$=value], [attr*=value]: //属性名起始于/结束于/包含值/
el#id: //元素+id
el.class: //元素+class
el[attr]: //元素+属性名
Any combination,//其它组合
ancestor child: //包含于ancestor内部的所有child元素
parent > child: //父级元素下的直接子元素
siblingA + siblingB: //a元素的前一个同级元素
siblingA ~ siblingX: //a元素之前的同级元素
需求:
使用CSS或JQuery语法的选择器来查找或操作元素
解决方案:
使用方法Element.select(String selector)及Elements.select(String selector)
File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");
Elements links = doc.select("a[href]"); // 超链接
Elements pngs = doc.select("img[src$=.png]"); // png格式的图片
Element masthead = doc.select("div.masthead").first(); // div with class=masthead
Elements resultLinks = doc.select("h3.r > a"); // direct a after h3
说明:Jsoup元素集支持类似CSS或JQuery语法的选择器来查找匹配的元素。
select方法能用于Document【文档】,Element【元素】,或Elements【元素集】。它是前后关联的,因此你可以通过选择特定元素或串联选择请求来过滤。
选择器概览
tagname: //tag标签查找
ns|tag:/ /名称空间+tag标签查找
#id: //id查找
.class: //class名查找
[attribute]: //属性名查找
[^attr]: //属性名前缀查找
[attr=value]: //属属性值查找性名+
[attr^=value], [attr$=value], [attr*=value]: //属性名起始于/结束于/包含值/
[attr~=regex]: //正则表达式查找
*: //所有元素
选择器组合el#id: //元素+id
el.class: //元素+class
el[attr]: //元素+属性名
Any combination,//其它组合
ancestor child: //包含于ancestor内部的所有child元素
parent > child: //父级元素下的直接子元素
siblingA + siblingB: //a元素的前一个同级元素
siblingA ~ siblingX: //a元素之前的同级元素
el, el, el: //多个选择器组合
0 0
- 【Java Utility】Jsoup网页爬虫工具-使用选择器查找元素【八】
- 【Java Utility】Jsoup网页爬虫工具--处理URL链接【十】
- 【Java Utility】Jsoup网页爬虫工具--设置属性值【十一】
- 【Java Utility】Jsoup网页爬虫工具--使用DOM方法浏览Document【七】
- 【Java Utility】Jsoup网页爬虫工具--从元素/元素集中提取属性、文本和HTML内容【九】
- 【Java Utility】Jsoup网页爬虫工具简介Java HTML PARSER【一】
- 【Java Utility】Jsoup网页爬虫工具--文档解析及转换【二】
- 【Java Utility】Jsoup网页爬虫工具--将String解析成Document【三】
- 【Java Utility】Jsoup网页爬虫工具--解析HTML语句片段【四】
- 【Java Utility】Jsoup网页爬虫工具--从URL加载Document【五】
- 【Java Utility】Jsoup网页爬虫工具--从文件加载Document【六】
- 【Java Utility】Jsoup网页爬虫工具--设置Element的HTML内容【十二】
- jsoup使用选择器语法来查找元素
- jsoup使用选择器语法来查找元素
- 使用JSoup选择器语法来查找元素
- 使用jsoup选择器来查找元素
- 使用jsoup选择器来查找元素
- Jsoup使用选择器语法来查找元素
- BZOJ 4585 [Apio2016]烟火表演 可并堆
- volatile关键字
- 分布式缓存布置方案
- JavaSE 学习参考:反射机制(2)Class类
- 判断一棵二叉树是否为完全二叉树
- 【Java Utility】Jsoup网页爬虫工具-使用选择器查找元素【八】
- spring与mybatis整合时mapper的配置问题
- ELK接入微服务工程
- POJ
- 常见内置指令知识点总结
- MIT 线性代数(31—33)读书笔记
- J2EE进阶之CSS 二
- mongoose简介及主要操作
- quickcocos2dx资源丢失的巨坑