【Java Utility】Jsoup网页爬虫工具--从URL加载Document【五】

来源:互联网 发布:mac物理地址不匹配 编辑:程序博客网 时间:2024/06/08 15:33
原文出自:https://jsoup.org/cookbook/input/load-document-from-url

需求:
从互联网获取并解析某个网页,查找其内部数据。

解决方案:

使用方法:Jsoup.connect(String url)

Document doc = Jsoup.connect("http://example.com/").get();String title = doc.title();

说明:

方法connect(String url)创建了一个新的Connection对象,

get()方法获取并解析某个HTML文档。若获取URL时出现错误,将抛出一个需要适当处理的IOException


Connection接口:用来串联具体请求的方法
Document doc = Jsoup.connect("http://example.com")  .data("query", "Java")  .userAgent("Mozilla")  .cookie("auth", "token")  .timeout(3000)  .post();

  该方法仅支持网页URL(http及https协议);若你需要从文件加载Document,使用方法:parse(File in, String charsetName)来代替。
0 0
原创粉丝点击