Jsoup解析HTML资料收集学习
来源:互联网 发布:无敌淘宝王全文 编辑:程序博客网 时间:2024/04/29 16:36
- Jsoup可以从URL,文件,或者字符串中获取并解析HTML。
- Jsoup可以查找并提取数据,可以使用DOM遍历或者CSS选择器。
- 你可以使用Jsoup来修改HTML元素,属性以及文本。
- Jsoup通过一个安全的白名单确保了用户提交的内容是干净的,以防止XSS攻击。
- Jsoup还能输出整洁的HTML。
采用CSS或类似jquery 选择器(selector)语法来处理HTML文档中的数据。
方法
利用方法:Element.select(String selector)和Elements.select(String selector)。
File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");
Elements links = doc.select("a[href]"); // a with href
Elements pngs = doc.select("img[src$=.png]"); // img with src ending .png
Element masthead = doc.select("div.masthead").first();
// div with class=masthead
Elements resultLinks = doc.select("h3.r > a"); // direct a after h3
描述
Jsoup的元素支持类似CSS或(jquery)的选择器语法的查找匹配的元素,可实现功能强大且鲁棒性好的查询。
jsoup elements support a CSS(or jquery) like selector syntax to find matching elements, that allows very powerful and robust queries.
Select方法可作用于Document、Element或Elements,且是上下文相关的,因此可实现指定元素的过滤,或者链式选择访问。
The selectmethod is available in a Document, Element, or in Elements. It is contextual, so you can filter by selecting from a specific element, or by chaining select calls.
选择(操作)返回元素列表(Elements),并提供一组方法来提取或处理结果。
Select returns a list of Elements (as Elements), which provides a range of methods to extract and manipulate the results.
选择器概要(Selector overview)
- Tagname:通过标签查找元素(例如:a)
- ns|tag:通过标签在命名空间查找元素,例如:fb|name查找<fb:name>元素
- #id:通过ID查找元素,例如#logo
- .class:通过类型名称查找元素,例如.masthead
- [attribute]:带有属性的元素,例如[href]
- [^attr]:带有名称前缀的元素,例如[^data-]查找HTML5带有数据集(dataset)属性的元素
- [attr=value]:带有属性值的元素,例如[width=500]
- [attr^=value],[attr$=value],[attr*=value]:包含属性且其值以value开头、结尾或包含value的元素,例如[href*=/path/]
- [attr~=regex]:属性值满足正则表达式的元素,例如img[src~=(?i)\.(png|jpe?g)]
- *:所有元素,例如*
选择器组合方法
- el#id::带有ID的元素ID,例如div#logo
- el.class:带类型的元素,例如. div.masthead
- el[attr]:包含属性的元素,例如a[href]
- 任意组合:例如a[href].highlight
- ancestor child:继承自某祖(父)元素的子元素,例如.body p查找“body”块下的p元素
- parent > child:直接为父元素后代的子元素,例如: div.content > pf查找p元素,body > * 查找body元素的直系子元素
- siblingA + siblingB:查找由同级元素A前导的同级元素,例如div.head + div
- siblingA ~ siblingX:查找同级元素A前导的同级元素X例如h1 ~ p
- el, el, el:多个选择器组合,查找匹配任一选择器的唯一元素,例如div.masthead, div.logo
伪选择器(Pseudo selectors)
- :lt(n):查找索引值(即DOM树中相对于其父元素的位置)小于n的同级元素,例如td:lt(3)
- :gt(n):查找查找索引值大于n的同级元素,例如div p:gt(2)
- :eq(n) :查找索引值等于n的同级元素,例如form input:eq(1)
- :has(seletor):查找匹配选择器包含元素的元素,例如div:has(p)
- :not(selector):查找不匹配选择器的元素,例如div:not(.logo)
- :contains(text):查找包含给定文本的元素,大小写铭感,例如p:contains(jsoup)
- :containsOwn(text):查找直接包含给定文本的元素
- :matches(regex):查找其文本匹配指定的正则表达式的元素,例如div:matches((?i)login)
- :matchesOwn(regex):查找其自身文本匹配指定的正则表达式的元素
- 注意:上述伪选择器是0-基数的,亦即第一个元素索引值为0,第二个元素index为1等
应用代码
</pre><pre name="code" class="java">File inHtml = new File(inFile);Document doc = Jsoup.parse(inHtml, "UTF-8", "");doc.select("meta").attr("content", "text/html; charset=UTF-8");Elements elms = doc.getElementsByAttribute("data-formula"); for (Element ee : elms) { String oldformulaContent = ee.attr("data-formula"); LogUtil.d(TAG, "oldformulaContent---" + oldformulaContent); String newformulaContent = transferContent(oldformulaContent, repalceInfo, FormId); if(!doc.select("td[data-formula=" + oldformulaContent + "]").isEmpty()) { doc.select("td[data-formula=" + oldformulaContent + "]").attr("data-formula", newformulaContent); } LogUtil.d("formula conten", ee.text() + oldformulaContent);}
- Jsoup解析HTML资料收集学习
- jsoup 解析 html 学习
- Jsoup学习笔记3:Jsoup 解析Html源码实例
- Jsoup学习笔记4:Jsoup 解析Html源码实例
- Android学习笔记:Jsoup解析、截取HTML
- Jsoup解析Html库学习 (一)
- 【Jsoup学习礼记】解析一个HTML字符串
- HTML 解析器---Jsoup学习笔记
- Jsoup解析Html学习之路
- HTML解析器 jsoup
- HTML解析器 jsoup
- jsoup解析html
- Jsoup解析HTML Demo
- HTML解析器 jsoup
- 利用Jsoup解析HTML
- jsoup 解析HTML 文档
- html解析工具。jsoup。
- Jsoup解析HTML文件
- javascript正则表达式之最长匹配(贪婪匹配)和最短匹配(懒惰匹配)
- POJ 1061解题报告
- OC-知识点(概括)
- linux IPC之内存共享
- MFC加载GIF动画
- Jsoup解析HTML资料收集学习
- Web Service学习笔记(原理)
- 1029. Median
- 关于大型网站技术演进的思考(八)--存储的瓶颈终篇(8)
- poj1840 Eqs
- rm
- stemwin 之 字母显示
- android xml解析之pull解析
- JAVA帮助文档全系列 JDK1.5 JDK1.6 JDK1.7 官方中英完整版下载