【Java Utility】Jsoup网页爬虫工具--从URL加载Document【五】

来源：互联网发布：mac物理地址不匹配编辑：程序博客网时间：2024/06/08 15:33

原文出自：https://jsoup.org/cookbook/input/load-document-from-url

需求：
从互联网获取并解析某个网页，查找其内部数据。

解决方案：
使用方法：Jsoup.connect(String url)

Document doc = Jsoup.connect("http://example.com/").get();String title = doc.title();

说明：

方法connect(String url)创建了一个新的Connection对象，

get()方法获取并解析某个HTML文档。若获取URL时出现错误，将抛出一个需要适当处理的IOException

Connection接口：用来串联具体请求的方法

Document doc = Jsoup.connect("http://example.com")  .data("query", "Java")  .userAgent("Mozilla")  .cookie("auth", "token")  .timeout(3000)  .post();

该方法仅支持网页URL（http及https协议）；若你需要从文件加载Document，使用方法：parse(File in, String charsetName)来代替。

0 0