Java编写网络爬虫笔记(第三部分:Jsoup的强大)

来源:互联网 发布:4首最流行的网络歌曲 编辑:程序博客网 时间:2024/06/05 03:56

基于httpclient下载的页面,接着就是应该提取url了,最开始我用的是htmlpraser,过几天后,我就发现了还有jsoup这个包,非常的好用,接着我就直接用jsoup来抓取页面和提取出里面的url了,在这里跟大家分享一下代码。

import java.io.IOException;import java.util.HashSet;import java.util.Iterator;import java.util.Set;import org.jsoup.Jsoup;import org.jsoup.nodes.Document;import org.jsoup.nodes.Element;import org.jsoup.select.Elements;public class JSOUP {    public static Set<String> extractLinks(String url){        Set<String> urls = new HashSet();    try {        Document doc =Jsoup.connect(url).get();        Elements links=doc.select("a[href]");    //  System.out.println(links.size());        for(Element link :links){            String Url =link.attr("abs:href");                urls.add(Url);        }    } catch (IOException e) {        // TODO 自动生成的 catch 块        e.printStackTrace();    }    return urls;}
1 0
原创粉丝点击