2017.11.11

来源:互联网 发布:常见的网络攻击方式 编辑:程序博客网 时间:2024/06/06 12:36

python爬虫

爬虫简介:

爬虫:一段自动抓取互联网信息的程序。从一个URL从发,访问它所有关联URL,并且从每个页面上,提取出我们所需要的有价值的数据。

            简单的说:爬虫就是自动访问互联网并且提取信息的程序。


价值:爬取数据,互联网数据,更好地为我所用。

简单的爬虫架构:

                                                                                               URL管理器(对已经爬取过的URL和未爬取的URL进行管理)
                                                                                                                                      |
爬虫调度端(启动爬虫,监视爬虫的调度情况)——>取出一个待爬取的URL,将其传送给网页下载器,网页下载器将其下载并转换成字符串
                                                                     
                                                                                              字符串传送给网页解析器

                                                                                              解析出有价值的数据
原创粉丝点击