爬虫简单架构

来源:互联网 发布:tears and rain 知乎 编辑:程序博客网 时间:2024/06/07 22:13

爬虫基础概念及作用

1.爬虫:一段自动抓取互联网信息的程序。

2.作用:信息为我所用。

简单爬虫架构

1.

2.

URL管理器:管理待抓取url集合和已抓取的URL集合

如果不对这些URL进行管理,就有可能出现重复抓取和循环抓取的情况,最严重的情况,如果两个URL相互指向,会发现我们的爬虫一直在循环不断的抓取这两个URL,便会出现死循环,重复抓取和循环抓取时我们要避免的情况,因此,我们采用URL管理器对它们实行统一管理。

实现方式:

网页下载器:将互联网上url对应的网页下载到本地的工具

1.有待进一步学习

网页解析器

1.

2.python有哪几种网页解析器呢?

正则表达式,html.parser,lxml,beautifulsoup

BeautifulSoup的介绍和安装

1.beautiful soup的语法分三部分,首先,根据下载好的一个html网页的字符串,我们可以创建一个beautiful soup的对象,创建对象的同时,就将整个html网页的字符串加载称一个dom树,在这个dom树上我们就可以进行各种节点的搜索,搜索节点有两个方法find_all方法和find方法,find_all方法会搜索出所有满足条件的节点,find方法只会搜索出第一个满足要求的节点。这两个方法的参数是一模一样的。得到了一个节点之后,我们便可以访问节点的名称,节点的属性和节点的文字。相应的,在搜索的过程中,我们也可以按照节点的名称属性或文字进行搜索。


抓取百度百科python及其相关页面实例分析

1.

调度程序编写

1.在本次实例项目中,一共需要包含5个文件,调度程序spider_main.py,url管理器 url_manager.py,html下载器html_downloader.py,html解析器html_parser.py和最后的输出器html_outputer.py。


0 0
原创粉丝点击