Jsoup爬取网页上表格数据

来源:互联网 发布:high mysql pdf 编辑:程序博客网 时间:2024/05/16 09:32

首先,先下载jsoup的jar包,这个自己去网上搜一下吧,好多的,然后导入到程序中,方便使用。

下来,先得到你要获取的网页的内容,Document doc = Jsoup.connect(url).timeout(5000).get();

这里面的url就是你要爬取的网址,timeout(5000)设置了你爬取网页的最大时间,超出时间后就不再尝试了,一般网站不用设置的,只需要Document doc = Jsoup.connect(url).get();就可以获取该网页的内容,转为文档格式。

接下来,就是寻找你要获取的数据,这里主要讲网页中表格的数据如何获取,其他的类似。

你要明白你所要获取网页的html标签的结构,按F12进入开发者模式,寻找你所要获取的数据信息。

如果网页上只有一个表格,那就简单了:Elements elements1 = doc.select("table").select("tr");这一行代码就获得了网页上的表格中的行,返回的elements是该表格有多少行,如果是多个表格,那么select()中的是该表格的标签,如它的class等属性,以确定你选择的是哪一个表格。

for (int i = 0; i < elements1.size() - 1; i++) {
//获取每一行的列
Elements tds = elements1.get(i).select("td");

{

//对每一行中的某些你需要的列进行处理

//获取第i行第j列的值

String oldClose = tds.get(j).text()

//接下来,进行你的操作

………………

}

}

0 0