【Java Utility】Jsoup网页爬虫工具--解析HTML语句片段【四】

来源：互联网发布：gps时间同步软件编辑：程序博客网时间：2024/05/21 15:48

原文出自：https://jsoup.org/cookbook/input/parse-body-fragment

需求：

有一个HTML语句片段（例如包含一系列p标签的div节点；HTML文档的一部分而非全部）需要解析，它可能来自用户提交的comment【评论】,或者在CMS系统中编辑的网页。

解决方案：

采用方法Jsoup.parseBodyFragment(String html)

//定义HTML语句片段String html = "<div><p>Lorem ipsum.</p>";//获取Document对象Document doc = Jsoup.parseBodyFragment(html);//获取body元素Element body = doc.body();

说明：

方法：parseBodyFragment(html)会创建一个新的Document，并将需解析的html参数插入到body元素中。

若你使用的是常规的Jsoup.parse(String html)方法，你也会得到相同的结果；但是明确地将html参数当作HTML语句片段，能确保

用户提供的html能被解析到body元素内。

方法：Document.body()等同于doc.getElementsByTag("body")，返回Document对象的body元素的子元素。

保证安全：
当你接受用户输入的HTML时，你需要小心避免受到cross-site scripting【XSS】攻击。

0 0