使用Jsoup进行网页数据抓取
来源:互联网 发布:mac上玩lol 编辑:程序博客网 时间:2024/06/05 03:27
在进行网页数据抓取的时候主要有HtmlParser和Jsoup,下面简单介绍一下Jsoup的使用方法。
在学习jsoup之前最好有一点jquery的编程经验,这样会去jsoup的取值方法以及查找方式会更熟悉。
下面只给出简单的一个方法:
public KaiJiangInfo crawler_k3(){KaiJiangInfo kaiJiangInfo = null;try {kaiJiangInfo = new KaiJiangInfo();kaiJiangInfo.setCzId("563");kaiJiangInfo.setCzName("安徽");Document doc = Jsoup.connect("http://data.ahfc.gov.cn/k3/index.html").timeout(30000).get(); Element e_table = doc.getElementById("chartsTable"); Element e_tbody = e_table.select("tbody[id=chartsTbody]").first(); Element e_tr = e_tbody.select("tr").get(e_tbody.select("tr").size()-2); String k3_issue = e_tr.select("td[class=line_r]").text();kaiJiangInfo.setIssue(k3_issue.trim());StringBuffer sb = new StringBuffer();Elements k3_kjZNum = e_tr.select("td[class=ball01],td[class=ball01 line_r]");// 拼接号码用“ ”分隔for (int i = 0; i < k3_kjZNum.size(); i++) {if (i > 0) {sb.append(" " + k3_kjZNum.get(i).text());} else {sb.append(k3_kjZNum.get(i).text());}}String k3_num = new String(sb);kaiJiangInfo.setKjZNum(k3_num.trim());kaiJiangInfo.setKjDate(CrawlerDateAH.getkjDate("20"+kaiJiangInfo.getIssue()));} catch (Exception e) {log.error(e);return null;}return kaiJiangInfo;}
更多文章见:http://www.16boke.com
- 使用Jsoup进行网页数据抓取
- jsoup 抓取网页数据
- 网页数据抓取——使用jsoup
- 使用Jsoup抓取数据
- Java抓取网页数据-----Jsoup
- HttpClient + Jsoup 网页数据抓取
- Jsoup网页数据抓取案例
- Jsoup简介——使用Java抓取网页数据
- Android App使用Jsoup抓取网页数据显示
- Jsoup简介——使用Java抓取网页数据
- Jsoup简介——使用Java抓取网页数据
- 使用java开源工具jsoup抓取解析网页数据
- Jsoup简介——使用Java抓取网页数据
- 使用HttpClient和Jsoup进行简单数据抓取、解析
- Jsoup学习-使用Jsoup抓取页面数据
- 使用PHP进行网页数据抓取小结
- 使用JSOUP抓取页面数据
- jsoup技术抓取网页数据大全
- lib和dll文件的区别和联系
- 深度探索C++对象模型笔记(五)
- 学习之使用Java IO 来实现复制文件的操作
- 深入解析Linux中的fork函数
- blog
- 使用Jsoup进行网页数据抓取
- SQL Server 2008 开启1433端口
- 单例模式
- c#POST请求和接收post请求
- oracle中的savepoint设置
- NOR Flash、NAND Flash和iNAND Flash的不同点
- Spring中DispacherServlet、WebApplicationContext、ServletContext的关系
- InvalidateRect
- __attribute__机制介绍