joup完美抓取非登录网页并引用其样式文件
来源:互联网 发布:淘宝店怎么提升信誉 编辑:程序博客网 时间:2024/06/06 07:13
上一篇文章在处理抓取网页中链接时做的不是很好,当时没有很好理解jsoup的功能,在仔细阅读后发现,jsoup的功能真是强大的让人叹服。下面这段代码可以抓取任意非登录页面,并直接引用其css\js等样式文件的绝对路径。
package testRedBag;
import org.jsoup.Jsoup;import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;
public class HttpClientHtml {
public static void main(String[] args) throws IOException {
String url = "http://www.baidu.com";
Document doc = Jsoup.connect(url).get();
Elements imgs=doc.getElementsByTag("img");//获取所有<img>标签
Elements a=doc.getElementsByTag("a");//获取所有<a>标签
Elements link=doc.getElementsByTag("link");//获取所有<link>标签
Elements script=doc.getElementsByTag("script");//获取所有<script>标签
//将所有<a>标签里的有效相对路径转换成有效绝对路径
for(int i=0;i<a.size();i++){
String href=a.get(i).attr("abs:href");
if(href!=""&&!href.contains("javascript:void(0)")&&!href.contains("#")){
Element str=a.get(i).attr("href",href);
}
}
//将所有<img>标签里的相对路径转换成绝对路径
for(int i=0;i<imgs.size();i++){
String src=imgs.get(i).attr("abs:src");
Element str=imgs.get(i).attr("src",src);
}
//获取指定的html内容
// Elements div=doc.getElementsByClass("1-content");//获取指定div内容
String html=doc.html();
System.out.println(html);
//将所有<link>标签里的相对路径转换成绝对路径
for(int i=0;i<link.size();i++){
String href=link.get(i).attr("abs:href");
Element str=link.get(i).attr("href",href);
}
//将所有<script>标签里的相对路径转换成绝对路径
for(int i=0;i<script.size();i++){
String src=script.get(i).attr("abs:src");
if(src!=""){
Element str=script.get(i).attr("src",src);
}
}
// System.out.println(link);
// System.out.println(script);
}
}
0 0
- joup完美抓取非登录网页并引用其样式文件
- CURL 爬虫,抓取网页并写入文件
- 抓取网页登录问题解决Code(非验证码)
- 定时抓取网页,并保存到指定文件
- httpClient抓取网页并存储mht格式的文件
- 抓取网页并存储在指定的文件中
- Python网页抓取、模拟登录
- Python网页抓取、模拟登录
- JSOUP抓取网页,模拟登录
- 网页数据抓取并分析
- 抓取网页并解析HTML
- 抓取网页并解析HTML
- 抓取网页数据并解析
- 使用httpclient jsoup 及jetty 全自动登录网站 抓取网页,解析并展示
- HttpClient 4.x 执行网站登录并抓取网页的代码
- 用Python模拟登录正方教务系统并抓取初始网页的一些个人笔记
- apache HttpClient 4.3.4自动登录并抓取中国联通网页用户基本信息和账单数据
- 网页中引用优酷播放器并使其被遮罩层遮住
- 设计模式学习笔记(一):策略模式
- 实现网站(网页)跳转且可隐藏跳转后网址的代码
- Android开发中各分辨率图片的参考尺寸
- bootcss 通过css全局样式将html设置为html5文档样式
- AFNetworking网络请求-数据请求(POST/GET)
- joup完美抓取非登录网页并引用其样式文件
- Kruskal最小生成树算法
- hdu1680 Cheesy Chess--BFS & 三维标记数组的探讨(待改进)
- CodeForces 15D Map (RMQ)
- Kefa and Company
- fzu 2144 Shooting Game 区间覆盖贪心
- pat 1115 Counting Nodes in a BST (30)
- Android studio乱码O
- dtd 文件解析