Jsoup获取网页全部原始内容

来源:互联网 发布:口袋助理软件 编辑:程序博客网 时间:2024/06/01 09:15

Jsoup可以对HTML页面进行分析和元素的提取,有点类似于DOM编程。

对Jsoup常用的方式是将HTML解析成Document对象,再对之进行操作。

Jsoup也可以提取给定URL的原始HTML文档,在发送请求时,同样可以设置Cookie、data、charset等条件,Demo如下:


import org.jsoup.Connection;import org.jsoup.Jsoup;import java.util.HashMap;import java.util.Map;/** * <pre> *     <b>Title: Jsoup Demo</b> *     <hr/> *     <b>Comments:</b><br/> *           通过Jsoup的connect方法获取Connection对象 *           再用Connection对象的execute方法获取Connection.Response对象 *           使用Response对象,即可获取html原始文本内容 * </pre> * Created by Lord_X_ on 2017/8/16 0:03. */public class JsoupDemo {    public static final String WEBSITE = "http://www.baidu.com";  // 站点URL,注意要加上协议(http://)    public static Map<String, String> cookies = new HashMap<String, String>(); // cookie    static {        cookies.put("cookie_name", "cookie_value"); // 初始化cookie    }    public static void main(String[] args) {        try {            Connection.Response response = Jsoup.connect(WEBSITE)                    .cookies(cookies)                    .postDataCharset("UTF-8")                    .execute();            String body = response.body(); // 获取html原始文本内容            System.out.println(body);        } catch (Exception ex) {            ex.printStackTrace();        }    }}


原创粉丝点击