【Java Utility】Jsoup网页爬虫工具--将String解析成Document【三】

来源:互联网 发布:香港人用什么手机知乎 编辑:程序博客网 时间:2024/06/04 19:10

原文出自https://jsoup.org/cookbook/input/parse-document-from-string


需求:

给定java String格式的HTML字符串,想要对它进行解析,以便获取其内容,或者确保它拥有良好的格式,或者对它进行修改。该String可能来自用户输入、文件或者互联网。

解决方案:
采用静态方法Jsoup.parse(String HTML),或者Jsoup.parse(String html, String baseUri)【当网页来自于互联网,并且你想得到该网页的URL时】

//采用Jsoup.parse(String HTML)将字符串解析成DocumentString html = "<html><head><title>First parse</title></head>"  + "<body><p>Parsed HTML into a doc.</p></body></html>";Document doc = Jsoup.parse(html);


说明:

方法:parse(String html, String baseUri)

将输入的HTML字符串解析到新的Document。

参数baseUri用来完成相对url与绝对url之间的转换,应将其设为文档的源路径。当baseUri无法使用,或者该HTML有确切的base Element【父级Element】,建议使用方法:parse(String html)。

当你传入非空的String参数,可以确保你成功获得正确的Document解析结果,至少包含一个head及body-Element对象。(若出现Exception,或错误的解析tree【Document解析后是类似tree的对象】,请提交bug)。


一旦你有一个文档,你可以调用合适的方法来获取不同元素和节点的数据。

0 0