Java编写网络爬虫笔记(第三部分:Jsoup的强大)
来源:互联网 发布:4首最流行的网络歌曲 编辑:程序博客网 时间:2024/06/05 03:56
基于httpclient下载的页面,接着就是应该提取url了,最开始我用的是htmlpraser,过几天后,我就发现了还有jsoup这个包,非常的好用,接着我就直接用jsoup来抓取页面和提取出里面的url了,在这里跟大家分享一下代码。
import java.io.IOException;import java.util.HashSet;import java.util.Iterator;import java.util.Set;import org.jsoup.Jsoup;import org.jsoup.nodes.Document;import org.jsoup.nodes.Element;import org.jsoup.select.Elements;public class JSOUP { public static Set<String> extractLinks(String url){ Set<String> urls = new HashSet(); try { Document doc =Jsoup.connect(url).get(); Elements links=doc.select("a[href]"); // System.out.println(links.size()); for(Element link :links){ String Url =link.attr("abs:href"); urls.add(Url); } } catch (IOException e) { // TODO 自动生成的 catch 块 e.printStackTrace(); } return urls;}
1 0
- Java编写网络爬虫笔记(第三部分:Jsoup的强大)
- java jsoup 网络爬虫
- JAVA编写网络爬虫笔记(第一部分:URL链表的结构)
- Jsoup做的网络爬虫
- jsoup 的用法网络爬虫
- JAVA编写网络爬虫笔记(第二部分:httpClient下载页面)
- 【正完成】Java基于Jsoup的网络爬虫工具实现
- Java编写网络爬虫
- Jsoup-实现简单的网络爬虫
- 基于Jsoup实现的简单网络爬虫
- java——强大的jsoup
- Jsoup网络爬虫
- htmluinit+jsoup 网络爬虫
- Jsoup之网络爬虫
- JAVA爬虫--Jsoup的简单运用
- JAVA简单爬虫例子--Jsoup的运用
- Java爬虫之Jsoup
- java爬虫:JSOUP
- 跨iframe框架操作元素
- 我的cocos2d-x-3.2集成云风pbc lua binding方法
- 正确处理浏览器在下载文件时HTTP头的编码问题(Content-Disposition)
- 7zip的编译
- Android中的Interpolator
- Java编写网络爬虫笔记(第三部分:Jsoup的强大)
- leetcode Valid Parentheses
- [jquery] 简单判断滚动条位置
- CMD:[2]怎样获取文件夹的目录层次结构
- hdu 2870 Largest Submatrix(dp)
- left join 的SQL 转hql
- 状态模式--的一个试用场景
- 一个SaveOrUpdate的不执行问题
- HDU 大数模板之Children’s Queue