【Java Utility】Jsoup网页爬虫工具--将String解析成Document【三】

来源：互联网发布：香港人用什么手机知乎编辑：程序博客网时间：2024/06/04 19:10

原文出自https://jsoup.org/cookbook/input/parse-document-from-string

需求：

给定java String格式的HTML字符串，想要对它进行解析，以便获取其内容，或者确保它拥有良好的格式，或者对它进行修改。该String可能来自用户输入、文件或者互联网。

解决方案：
采用静态方法Jsoup.parse(String HTML)，或者Jsoup.parse(String html, String baseUri)【当网页来自于互联网，并且你想得到该网页的URL时】

//采用Jsoup.parse(String HTML)将字符串解析成DocumentString html = "<html><head><title>First parse</title></head>"  + "<body><p>Parsed HTML into a doc.</p></body></html>";Document doc = Jsoup.parse(html);

说明：
方法：parse(String html, String baseUri)

将输入的HTML字符串解析到新的Document。

参数baseUri用来完成相对url与绝对url之间的转换，应将其设为文档的源路径。当baseUri无法使用，或者该HTML有确切的base Element【父级Element】，建议使用方法：parse(String html)。

当你传入非空的String参数，可以确保你成功获得正确的Document解析结果，至少包含一个head及body-Element对象。（若出现Exception，或错误的解析tree【Document解析后是类似tree的对象】，请提交bug）。

一旦你有一个文档，你可以调用合适的方法来获取不同元素和节点的数据。

0 0