用gcrawler进行多级页面并发下载的例子
来源:互联网 发布:core java卷2第10版pdf 编辑:程序博客网 时间:2024/05/20 09:44
前文《gcrawler:一个基于gevent的简单爬虫框架》中说到:
当然要实现像Scrapy那样的方式也可以,只要在worker里把下一级页 面链接再传递给scheduler即可。
原文中所举例的情况主要是同时对多个链接进行并发下载的情况,但对于要下载一个链接及其下一级甚至N级链接的情况,如果还按原文那样在一个worker里串行下载的话就不能达到并发的效果了。而这里所谓的“Scrapy那样的方式”就是把某个页面中解析出来的下一级页面链接传回引擎,使之可以对这些下一级页面进行并发下载,提高下载效率。
在评论里gyj_freedom希望进一步了解这个方式的实现,那现在就来写一下吧。
最直接能想到的实现就是在GCrawler类的dowoker里调用一个方法去解析结果,然后把下一级的链接放到qin里去。但是我觉得还是尽量保持这个类的功能单一比较好,所以不改GCrawler了。
另一个方法就是在Spider类里去实现,我本来是打算写一个Batch download spider,不过后来发现其实可以在原来那个Downloader类的基础上修改实现,于是我就直接把Downloader类给改了,这就是现在这个例子。
基本的思路就是scheduler生成器在生成完所有urls以后继续等待下一步的解析结果,然后继续将解析结果生成返回。在worker方法里则增加一个解析方法调用,然后把返回的结果能过类成员传递给scheduler。这样包括下一级页面在内的所有链接都可以通过并发的方式下载了。
新的Downloader是这样实现的:
其中new_items就是从解析结果中取得并且要传递给scheduler的下级页面的链接队列。worker里通过判断item的parse值来确定是否进行页面解析,如果解析的话,则把解析结果更新到new_items中去。如果解析过的页面结果不需要传递给pipeline保存的话(比如这只是一个索引页面),只要让解析函数返回的tuple第二值(如下例中的result)为None即可。
总体来说这个实现还是有点Ugly的,主要是因为页面解析层级是不确定的,scheduler难以确定结束的时机,所以增加了一个parsing计数器来记录当年在进行parsing的workers数量。因为gevent的并发是通过协程实现的,没有线程那样的并发冲突,所以这里没有加锁,应该是不会有并发冲突的问题。不过还是需要经过一段时间的实践检验看看,目前暂时只能先这样。
如果不使用多级并发下载的话,新的Downloader的用法与原来一样。如果要使用多级并发下载的话,只要在派生类里增加一个(两级的情况,更多级的话可能需要更多的)解析方法。为了保持与scrapy一致,默认的解析方法也是叫做parse。
具体的spider实现举例如下:
如上面的代码所表现的那样,唯一的不同就是增加了一个parse方法,在这个方法里,你可以用任何你喜欢的方式去解析页面(比如正则表达式、XPath、PyQuery等,这个例子里是用正则表达式),然后将解析结果返回给Downloader。这个例子只实现了一级链接(下载页面上的全部图片链接),如果还要进一步解析下一级页面甚至N级,只要在上面代码中“item = dict(url=i, parse=None)”中把None换成下一级的解析方法并实现这个方法即可。
更新后的代码在这里下载:1.9KB,或者访问Google Code的本项目页面。
- 用gcrawler进行多级页面并发下载的例子
- 多级派生的例子
- showModalDialog开打的页面中进行下载
- Python 的列表排序(用 operator 函数进行多级排序)
- InternetOpen系列函数进行下载的测试例子
- gcrawler:一个基于gevent的简单爬虫框架
- 多级别分类的页面显示
- 用一个例子看const与指针、引用、多级指针结合的区别
- 使用struts2进行文件下载以及下载权限控制的例子
- JavaScript控制当页面正在被下载时在页面上显示loading.....的例子
- 并发学习之:Synchronization进行粗粒度线程同步的例子
- minigui 多级窗口例子
- DUILIB多级菜单例子
- minigui 多级窗口例子
- 多级目录makefile例子
- 利用JS配合XMLHTTP方法实现多级联动的例子
- web页面用水晶报表的例子
- 下载的例子
- 安装redmine日志
- PCR正常跳变的处理
- struts2之使用JSON插件实现Ajax(JSON基本知识)
- 殇
- linux 下内核2.6.35 skb_copy_bits 函数和map.c文件
- 用gcrawler进行多级页面并发下载的例子
- 使用Properties读取XML文件
- ADO.NET在三层架构中的测试实例
- C# 无法解析程序集 System.Design
- Telechips 6410 GPU JIT 性能测试对比
- 笔记本安装MeeGo系统教程
- 在C#工具箱中添加外部引用的可见控件
- Step by Step WebMatrix网站开发之二:使用WebMatrix(1)
- sqr32