抓取HTML页面表格中的某一列数据

来源:互联网 发布:淘宝达人怎么去找卖家 编辑:程序博客网 时间:2024/05/16 15:29

     今天需要抓取的内容在HTML页面中存在,但是需要的只是表格中的某一列数据,而且在页面中存在多个table。这里采用采用逐层抓取的方法。正则表达式用的6的就不用往下看了。需要获取的的table的某一行数据如下所示:

这里需要抓取的是时间下面的“1179”。关键的地方就是先找到需要的table,再获取table的所有行,然后在每一行找到需要的列。实现如下所示:

private static void datasoup2(String url) throws Exception {    Document doc = Jsoup.connect(url).get();    Elements elements1 = doc.select("tbody").get(8).select("tr");        for (int i = 0; i < elements1.size(); i++) {        String td = elements1.get(i).select("td").get(7).text();        System.out.println(td);    }}




原创粉丝点击