【Java Utility】Jsoup网页爬虫工具--解析HTML语句片段【四】

来源:互联网 发布:gps时间同步软件 编辑:程序博客网 时间:2024/05/21 15:48

原文出自:https://jsoup.org/cookbook/input/parse-body-fragment


需求:

有一个HTML语句片段(例如包含一系列p标签的div节点;HTML文档的一部分而非全部)需要解析,它可能来自用户提交的comment【评论】,或者在CMS系统中编辑的网页。


解决方案:

采用方法Jsoup.parseBodyFragment(String html)

//定义HTML语句片段String html = "<div><p>Lorem ipsum.</p>";//获取Document对象Document doc = Jsoup.parseBodyFragment(html);//获取body元素Element body = doc.body();

说明:

方法:parseBodyFragment(html)会创建一个新的Document,并将需解析的html参数插入到body元素中。

若你使用的是常规的Jsoup.parse(String html)方法,你也会得到相同的结果;但是明确地将html参数当作HTML语句片段,能确保

用户提供的html能被解析到body元素内。

方法:Document.body()等同于doc.getElementsByTag("body"),返回Document对象的body元素的子元素。

保证安全:

当你接受用户输入的HTML时,你需要小心避免受到cross-site scripting【XSS】攻击。
0 0
原创粉丝点击