【Java Utility】Jsoup网页爬虫工具简介Java HTML PARSER【一】

来源：互联网发布：windows 结束进程命令编辑：程序博客网时间：2024/05/18 03:50

原文出自Jsoup项目官网https://jsoup.org/

Jsoup是一款解析HTML文档的Java库。它提供了一系列基于DOM解析、CSS、Jquery等方法实现，用来提取和控制数据的API。

Jsoup可以像现在主流浏览器一样，将HTML解析成DOM树，并实现以下操作：
1、从URL/文件/字符串中解析HTML；

2、使用遍历DOM树或CSS选择器来查找或提取数据；

3、对HTML的元素、属性、文本进行操作；

4、依靠白名单清理用户提交的内容，以防止XSS【注：跨站脚本攻击Cross Site Scripting】攻击；

5、输出清晰简明的HTML。

示例：

获取WikiPedia主页，转成DOM树，从news中选择所有headlines【头条】，将其放入elements list【元素列表】

//连接到主页，获取DOM文档对象Document doc = Jsoup.connect("http://en.wikipedia.org/").get();//使用CSS选择器获取elements列表Elements newsHeadlines = doc.select("#mp-itn b a");

Jsoup是开源项目，你可以从如下地址下载相关jar包：

Download jsoup

Jsoup当前最新版本为version 1.10.2，以下文件可供下载：

jsoup-1.10.2.jar //核心library
jsoup-1.10.2-sources.jar //可选资源包
jsoup-1.10.2-javadoc.jar//可选javadoc包

0 0