爬虫简单架构

来源：互联网发布：tears and rain 知乎编辑：程序博客网时间：2024/06/07 22:13

爬虫基础概念及作用

1.爬虫：一段自动抓取互联网信息的程序。

2.作用：信息为我所用。

简单爬虫架构

URL管理器：管理待抓取url集合和已抓取的URL集合

如果不对这些URL进行管理，就有可能出现重复抓取和循环抓取的情况，最严重的情况，如果两个URL相互指向，会发现我们的爬虫一直在循环不断的抓取这两个URL，便会出现死循环，重复抓取和循环抓取时我们要避免的情况，因此，我们采用URL管理器对它们实行统一管理。

实现方式：

网页下载器：将互联网上url对应的网页下载到本地的工具

1.有待进一步学习

网页解析器

2.python有哪几种网页解析器呢？

正则表达式，html.parser，lxml，beautifulsoup

BeautifulSoup的介绍和安装

1.beautiful soup的语法分三部分，首先，根据下载好的一个html网页的字符串，我们可以创建一个beautiful soup的对象，创建对象的同时，就将整个html网页的字符串加载称一个dom树，在这个dom树上我们就可以进行各种节点的搜索，搜索节点有两个方法find_all方法和find方法，find_all方法会搜索出所有满足条件的节点，find方法只会搜索出第一个满足要求的节点。这两个方法的参数是一模一样的。得到了一个节点之后，我们便可以访问节点的名称，节点的属性和节点的文字。相应的，在搜索的过程中，我们也可以按照节点的名称属性或文字进行搜索。

抓取百度百科python及其相关页面实例分析

调度程序编写

1.在本次实例项目中，一共需要包含5个文件，调度程序spider_main.py，url管理器 url_manager.py，html下载器html_downloader.py，html解析器html_parser.py和最后的输出器html_outputer.py。

0 0