Jsoup爬取网页上表格数据

来源：互联网发布：high mysql pdf 编辑：程序博客网时间：2024/05/16 09:32

首先，先下载jsoup的jar包，这个自己去网上搜一下吧，好多的，然后导入到程序中，方便使用。

下来，先得到你要获取的网页的内容，Document doc = Jsoup.connect(url).timeout(5000).get();

这里面的url就是你要爬取的网址，timeout(5000)设置了你爬取网页的最大时间，超出时间后就不再尝试了，一般网站不用设置的，只需要Document doc = Jsoup.connect(url).get();就可以获取该网页的内容，转为文档格式。

接下来，就是寻找你要获取的数据，这里主要讲网页中表格的数据如何获取，其他的类似。

你要明白你所要获取网页的html标签的结构，按F12进入开发者模式，寻找你所要获取的数据信息。

如果网页上只有一个表格，那就简单了：Elements elements1 = doc.select("table").select("tr");这一行代码就获得了网页上的表格中的行，返回的elements是该表格有多少行，如果是多个表格，那么select（）中的是该表格的标签，如它的class等属性，以确定你选择的是哪一个表格。

for (int i = 0; i < elements1.size() - 1; i++) {
//获取每一行的列
Elements tds = elements1.get(i).select("td");

{

//对每一行中的某些你需要的列进行处理

//获取第i行第j列的值

String oldClose = tds.get(j).text()

//接下来，进行你的操作

………………

}

0 0