android爬虫 jsoup

来源:互联网 发布:黑莓8700软件 编辑:程序博客网 时间:2024/05/18 00:40

官网地址

https://jsoup.org/


jsoup:Java HTML解析器

jsoup是一个用于处理真实HTML的Java库。它提供了一个非常方便的API来提取和操作数据,使用最好的DOM,CSS和类似jquery的方法。

jsoup实现WHATWG HTML5规范,并将HTML解析为与现代浏览器相同的DOM。

从URL,文件或字符串中刮取并解析 HTML
查找和提取数据,使用DOM遍历或CSS选择器
操纵 HTML元素,属性和文本
根据安全的白名单清理用户提交的内容,以防止XSS攻击
输出整洁的HTML
jsoup旨在处理野外发现的所有品种的HTML; 从原始和验证,到无效的标签汤; jsoup将创建一个明智的解析树。


移除不需要的元素标签

public Elements remove()移除每一个匹配的元素从当前的DOM中.这类似于将每个元素的外部 html 设置为 "无"。示例:HTML: <div><p>Hello</p> <p>there</p> <img /></div>doc.select("p").remove();结果:HTML = <div> <img /></div>请注意, 此方法不应用于清除用户提交的 html;相反, 使用清理程序来清除 html。返回值:本身(this), 用于链接同类可见:Element.empty(), empty()

Gradle

// jsoup HTML parser library @ http://jsoup.org/compile 'org.jsoup:jsoup:1.10.2'

github地址

https://github.com/jhy/jsoup/


1 0
原创粉丝点击