Jsoup实现简单的爬虫
来源:互联网 发布:如何下载别人淘宝视频 编辑:程序博客网 时间:2024/05/16 18:40
一、背景
项目上的实施人员需要把本省的各级区划录入我们的新系统,然而这项工作很繁琐,需要在国际统计局网站上查询区划信息,并且复制到Excel表格中,然后做进一步的数据处理。这会消耗大量的时间和人力,而且都是重复的操作。编程就是为了提高生产力和工作效率的,正好前几天在研究Java的爬虫,于是想,可以试着写一个爬虫把这数万个区划的信息都抓取下来吧,而且应该是很简单的爬虫。
二、技术
本次页面的爬取,我们使用Jsoup这个库。
Jsoup是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。总之,如果对HTML页面很了解的话,是可以很容易的用Jsoup来抓取页面的信息的。
代码中主要用了这几个方法:
- Jsoup.connect(url).get(),这个方法返回一个document文档,用toString输出之后其实就是访问页面的源代码。
- getElementsByClass(className)方法,Document的一个方法,如方法名所述,是根据class的名称获取元素列表。
- getElementsByTag(tagName)方法,根据标签的名称获取相应的元素列表。
- text()方法,Element的一个方法,用于获取元素内部的文本内容。
三、网页分析
爬取一个网站的信息,肯定是要了解一下需要爬取的网页的格式。看了看国家统计局的网站,页面很简洁很有规律。
查看一下源码,区划代码和区划名称的信息是在这个table里。
所以我们在爬取的时候,只需要按照class获取这些tr中的数据就好啦。这里要注意的一点是,市级的区划,其class为citytr,区(县)级的为countytr,街道(乡)级的为towntr,社区(村)级villagetr。所以在爬取的时候这里要“区别对待”。
因为除了社区级区划,每一个区划都会有下级区划。对于一个区划的下级区划页面,我们需要获取这个页面的地址,然后在新的页面中获取下级区划的信息。其实各级区划就是个树形结构,所以我们只要沿着节点遍历就可以了,在代码中的实现方式就是迭代。
获取下级区划页面链接的时候,我们要注意,如果遍历到市辖区的区划代码,这里是没有下级区划的,与社区级区划类似,所以这里要做一下判断。
我们还需要注意的一点就是,社区级区划的页面有三列信息的,多了一个城乡分类代码,所以这里也要做判断。
好啦,下面就是代码实现了。代码的关键处也会有与上文分析相对应的注释,确保代码清晰明了。
四、代码实现
我的代码分为三部分,第一部分是爬取页面的主方法,进行迭代爬取。第二部分是将爬取的区划信息输出到Excel里。第三部分是,我发现有的时候有些页面会访问失败,所以我把这些访问失败的链接在爬取结束后输出出来,以便于后续做补偿操作。当然,我们也可以再重新将这些链接的页面爬取一下,不过我是懒得改啦,先这样吧。
public class RegionSpider { private static List<JSONObject> regionList = new ArrayList<JSONObject>();//保存区划信息列表 private static List<String> fileUrlList = new ArrayList<String>();//保存访问失败页面url private static int index = 1;//序号 public static void main(String[] args) { String parentUrl = "http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2016/42.html";//根url地址 getRegion(parentUrl);//第一步 区划查询 createExcel(regionList);//第二步 输出到Excel for (String url : fileUrlList) {//第三步 输出失败链接 System.out.println(url); } } /** * 区划抓取主方法 * @param parentUrl */ public static void getRegion(String parentUrl) { try { Thread.sleep(100);//防止访问速度太快影响服务器性能(其实是怕被屏蔽) int rootUrlLength = parentUrl.lastIndexOf("/"); String parentRootUrl = parentUrl.substring(0, rootUrlLength + 1);//用于点击下一级区划时拼装的url的前部分url Document document = Jsoup.connect(parentUrl).get(); //获取区划信息的tr Elements citytrElements = document.getElementsByClass("citytr");//市级 //因为各级区划的class不一致,所以需要判断是否为空。如果为空则用下一级类型去选择元素。 if (citytrElements.size() == 0) { citytrElements = document.getElementsByClass("countytr");//区(县)级 if (citytrElements.size() == 0) { citytrElements = document.getElementsByClass("towntr");//街道(乡)级 if (citytrElements.size() == 0) { citytrElements = document.getElementsByClass("villagetr");//社区(村)级 } } } for (Element citytr : citytrElements) { String regionCode = ""; String regionName = ""; Elements tdElements = citytr.getElementsByTag("td"); Elements regionCodeElements = tdElements.get(0).getElementsByTag("a"); //如果当前节点没有下级区划,即不为<a>连接,则直接获取信息 if (regionCodeElements.size() == 0) { //如果是最底层区划,则有三个td if (tdElements.size() == 3) { regionCode = tdElements.get(0).text(); regionName = tdElements.get(2).text(); } else { regionCode = tdElements.get(0).text(); regionName = tdElements.get(1).text(); } JSONObject regionJson = new JSONObject(); regionJson.put("regionCode", regionCode); regionJson.put("regionName", regionName); regionList.add(regionJson); printRegion(regionCode, regionName); } else { //有下级区划,则进行迭代 String regionUrl = regionCodeElements.get(0).attr("href"); regionCode = regionCodeElements.get(0).text(); Elements regionNameElements = tdElements.get(1).getElementsByTag("a"); regionName = regionNameElements.get(0).text(); JSONObject regionJson = new JSONObject(); regionJson.put("regionCode", regionCode); regionJson.put("regionName", regionName); regionList.add(regionJson); printRegion(regionCode, regionName); String url = parentRootUrl + regionUrl; getRegion(url); } } } catch (IOException e) { e.printStackTrace(); fileUrlList.add(parentUrl); System.out.println("未访问的地址:" + parentUrl); } catch (InterruptedException e) { e.printStackTrace(); } } /** * 输出Excel文件 * @param list */ public static void createExcel(List<JSONObject> list) { //TODO 生成Excel } /** * 输出抓取的信息 * @param regionCode * @param regionName */ public static void printRegion(String regionCode, String regionName) { System.out.println("第" + index + "条:" + regionCode + "-" + regionName); index++; }}
对于生成Excel的方法,在实际情况中使用了Apache POI的HSSFWorkbook类生成的,具体实现就不贴在这里了,因为和我们的主题爬虫没有什么关系。之后我会把源码上传上来,方便大家查看并且批评指正。
阅读全文
0 0
- Jsoup实现简单的爬虫
- 基于Jsoup实现的简单爬虫
- Jsoup-实现简单的网络爬虫
- 基于Jsoup实现的简单网络爬虫
- 简单的网络爬虫实现(Jsoup使用)
- 【1】用jsoup来实现简单的java爬虫
- Java爬虫学习:利用HttpClient和Jsoup库实现简单的Java爬虫程序
- JAVA爬虫--Jsoup的简单运用
- JAVA简单爬虫例子--Jsoup的运用
- 非常简单Jsoup爬虫
- 【2】用jsoup来实现简单的java爬虫-图片篇
- 【3】用jsoup来实现简单的java爬虫-视频篇
- 简单多线程爬虫+Jsoup分析
- jsoup爬虫简单使用笔记
- java写的一个简单的爬虫(jsoup)
- java爬虫--jsoup简单的表单抓取案例
- 动态爬虫jsoup+jdic实现
- 使用JSOUP实现网络爬虫
- 【记录】RabbitMq、ActiveMq、ZeroMq、kafka之间的比较
- Python中单下划线,双下划线,俩头下划线的区别。
- Disk Tree
- CoreJava——阶段测试题(一)
- 面试的一个简单题
- Jsoup实现简单的爬虫
- hdu-6180-Schedule
- hdu 6178 Monkeys
- 小黑屋反馈总结
- C++中的类型转换
- 点到三维网格最近点距离
- Android Gradle文件各种bug汇总
- 更改Anaconda下载源,提高下载速度
- java 线程池讲解