URL管理器的实现

来源:互联网 发布:js prompt() 循环 编辑:程序博客网 时间:2024/06/04 23:31
URL管理器可以通过三种方式来实现
1.通过内存来实现URL管理器。直接调用python的set()方法进行存储。set()方法对待爬取的URL和已爬取的URL进行存储。但是缺点是内存空间小。
2.通过关系型数据库进行URL管理。通过MySQL数据库设置一个表urls,其中的字段是url和is_crawled。其中url代表存储的URL,is_crawled代表是否已经被爬取。
3.通过缓存数据库的方式进行URL管理。通过redis数据库中的set对待爬取URL和已爬取URL进行存储。优点就是可以永久的存储URL,存取速度也比较快。大公司通常选用缓存数据库来实现URL管理器。
0 0