java爬虫-Jsoup01

来源：互联网发布：java 当前时间转整型编辑：程序博客网时间：2024/06/05 19:08

工具包：Jsoup.jar http://pan.baidu.com/s/1jIlkMpC

package com.dx.util;

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.URL;
import java.net.URLConnection;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class CrawlerUtil {

public static void main(String[] args) {

//网址
String url = "http://v.baidu.com/";

try {
//获取文本对象
Document dom = Jsoup.parse(new URL(url), 3000);

//获取标题
System.out.println(dom.title());

//获取超链接(根据标签名)
Elements es1 = dom.getElementsByTag("a");
for(Element e:es1){
System.out.println(e.outerHtml());
}

//根据className获取(能点击的元素无法找到)
Elements es2 = dom.getElementsByClass("index-right-top");
for(Element e:es2){
System.out.println(e.outerHtml());
}

//获取单个元素(根据Id获取)
Element e_class = dom.getElementById("userbar");
System.out.println(e_class);

} catch (Exception e) {
e.printStackTrace();
}
}
}

0 0