使用Jsoup抓取页面的数据

来源：互联网发布：银行内控优化心得体会编辑：程序博客网时间：2024/05/16 07:15

package test;

import java.io.IOException;

import org.jsoup.Connection;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;

public class Test {

   @org.junit.Test
   public void getDatasByCssQueryUserBaidu() {

       try {
           parseRequestUrl("http://www.xicidaili.com/nt");
       } catch (IOException e) {
           e.printStackTrace();
       }
   }

   public static void parseRequestUrl(String url) throws IOException {
       Connection con = Jsoup.connect(url); // 获取请求连接
       // 浏览器可接受的MIME类型。
       con.header("User-Agent",
               "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:45.0) Gecko/20100101 Firefox/45.0");

       Document doc = con.get();
       Elements tds = doc.getElementsByTag("td");
       for (int i = 0; i < tds.size(); i++) {
           String linkText = tds.get(i).text();
           if (linkText.indexOf(".") > 0) {
               System.out.println("========" + linkText);
               String port = tds.get(i+1).text();
               System.out.println("-----------------"+port);
           }
       }
   }

}

0 0