使用Jsoup抓取页面的数据

来源:互联网 发布:银行内控优化心得体会 编辑:程序博客网 时间:2024/05/16 07:15
package test;

import java.io.IOException;

import org.jsoup.Connection;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;


public class Test {
 

    @org.junit.Test
    public void getDatasByCssQueryUserBaidu() {

        try {
            parseRequestUrl("http://www.xicidaili.com/nt");
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

 

    public static void parseRequestUrl(String url) throws IOException {
        Connection con = Jsoup.connect(url); // 获取请求连接
        // 浏览器可接受的MIME类型。
        con.header("User-Agent",
                "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:45.0) Gecko/20100101 Firefox/45.0");

        Document doc = con.get();
        Elements tds = doc.getElementsByTag("td");
        for (int i = 0; i < tds.size(); i++) {
            String linkText = tds.get(i).text();
            if (linkText.indexOf(".") > 0) {
                System.out.println("========" + linkText);
                String port = tds.get(i+1).text();
                System.out.println("-----------------"+port);
            }
        }
    }

}


0 0
原创粉丝点击