Java网页资源抓取例子(使用第三方包Jsoup解析Html)
来源:互联网 发布:红色管弦乐 知乎 编辑:程序博客网 时间:2024/05/17 23:38
直接上代码:
import java.io.IOException;import java.util.ArrayList;import org.jsoup.Jsoup;import org.jsoup.nodes.Document;import org.jsoup.nodes.Element;import org.jsoup.select.Elements;public class Test {public static void main(String[] args) throws IOException {ArrayList<String> imageUrlBuilder = new ArrayList<String>();ArrayList<String> httpUrlBuilder = new ArrayList<String>();httpUrlBuilder.add("http://news.baidu.com/");int i = 0;String url = null;while((url = httpUrlBuilder.get(i))!= null){try{Document doc = Jsoup.connect(url).get();System.out.println("==============当前url"+url+"下有图片链接===============");Elements imgLinks = doc.getElementsByTag("img");for (Element link : imgLinks) { String linkHref = link.attr("src"); if(linkHref.startsWith("http")){ imageUrlBuilder.add(linkHref); System.out.println(linkHref); }}Elements links = doc.getElementsByTag("a");for (Element link : links) { String linkHref = link.attr("href"); //如果数组中含有此链接字符串就不添加 if(linkHref.startsWith("http")&&!httpUrlBuilder.contains(linkHref)){ httpUrlBuilder.add(linkHref); }}}catch(Exception e){continue;}System.out.println();System.out.println("httpUrl数目"+httpUrlBuilder.size());i++;}}}第三方包下载地址:http://jsoup.org/download
0 0
- Java网页资源抓取例子(使用第三方包Jsoup解析Html)
- JAVA在线抓取网页中的元素的例子(使用JSoup包进行解析)
- JAVA在线抓取网页中的元素的例子(使用JSoup包进行解析)
- java(Jsoup)抓取第三方网站图片
- 使用java开源工具jsoup抓取解析网页数据
- 使用Jsoup解析html网页
- 使用Jsoup解析html网页
- 使用Jsoup解析html网页
- HTML Parser Jsoup - 网页抓取百度百科信息的例子
- Andorid中使用Jsoup解析库解析XML、HTML、Dom节点---第三方库学习笔记(三)
- java爬虫(使用jsoup设置代理,抓取网页内容)
- Java使用Jsoup解析网页
- Jsoup 解析Html网页
- 安卓新闻客户端(二) JSOUP解析HTML 抓取网页内容
- jsoup 分页抓取网页数据Java HTML Parser
- 使用java开源工具httpClient及jsoup抓取解析网页数据
- 使用java开源工具httpClient及jsoup抓取解析网页数据
- 使用java开源工具httpClient及jsoup抓取解析网页数据
- MOOC开启教育在线互动模式,知识全球化进程快速
- python3 基础总结及模块安装
- Android中颜色的表示
- 第九周项目三信号图(c图)
- web的自动化发布
- Java网页资源抓取例子(使用第三方包Jsoup解析Html)
- 【水模拟】#71 A. Bus Game
- struts2的国际化说明
- ListView下拉刷新的实现
- 假设有五个IP地址A:131.107.256.80,B:231.222.0.11,C:126.1.0.0,D:198.121.254.255,E:202.117.34.32,找出不能分配给主机的IP地
- 图片分享与防盗链
- Mysql Too many connections问题
- 诺基亚2016年会重返智能手机市场?
- Hadoop storm知识