python网络爬虫的简单架构

来源:互联网 发布:长白山东方神韵淘宝 编辑:程序博客网 时间:2024/05/16 15:05


  1、首先需要一个爬虫客户端来启动爬虫或者监视爬虫的运行情况

  2、URL管理器对将要爬取的URL和已爬取的URL进行管理,对URL管理的目的是为了避免重复爬取和循环爬取;从URL管理器中可以取出一个待爬取的URL传送给网页下载器,

网页下载器会将网页下载下来存储成一个字符串,这个字符串会传送给网页解析器进行解析;一方面会解析出有价值的数据,

另一方面每个网页都有很多指向其他网页的URL,这些URL被解析出来之后可以补充进URL管理器。

 3、具体的运行流程如下:
                                   

     

小结:URL管理器、网页下载器和网页解析器就形成了一个循环,只要有相关且待解析的URL,就会一直运行下去。