爬虫

来源：互联网发布：网络直播利弊有哪些编辑：程序博客网时间：2024/04/29 22:22

前一段时间学习了一点python，最近又了解了一些有关网络爬虫的知识，下面根据我的理解，简单说一下爬虫。

网络爬虫，是一段小程序，它能够自动下载网络资源。它就像一只蜘蛛，在各个网页之间爬来爬去，并把爬过的网

页中感兴趣的东西下载下来，这些网页中的url链接就是蜘蛛网的丝。

一个简单的爬虫工作过程大概是这样的：它先向服务器发送一个请求，得到返回后获得了一个网页，之后分析这个

网页，把其中所有的URL提取出来，如果原来的队列中没有，就把这些URL放入队列中等待下载，之后再从队列中拿

出一个新的URL，重复上面的过程。上面这些过程都是自动完成的。

爬虫抽象出来就是图的遍历，每个网页可以看成一个节点，网页中的URL链接可以看成边，对这些网页的遍历就要

用到广度优先搜索（BFS）。爬虫的原理就是这么简单，但实际中要考虑的东西有很多，下面主要谈一下遇到的问题

以及对应的解决方法。

第一个，就是如果一个网页无法打开，就会使程序死在那儿。对应的方法是，把对应的请求代码放在一个异常处理

中，如果遇到打不开的网页，或经过一定时间无法打开的网页，直接抛出异常，然后继续下一个请求。这是相对简单

的问题。

第二个，就是对URL队列遍历的问题。等到爬虫运行一段时间后，等待下载的URL会很多，这时每次对URL队列进

行遍历会占用很多时间。对应的处理方发就是使用散列表，即hash表，这样每次遍历查找的时间复杂度就是O(1)。但

是，这就产生了另一个问题，小规模的还无所谓，如果规模达到一定程度，hash表就会占用很多内存，甚至一台电脑

的内存无法加载整个hash表。我查找了一些资料，在一些搜索引擎上会使用布隆过滤器来解决这个问题，它只需要

hash表的1/8到1/4就能解决相同问题。

第三个，有时候要遍历的网页太多了，如何加快速度。这个问题在搜索引擎中是个很基本的问题，对应的解决方法

就是分布式处理，就是使用更多的服务器共同爬。通常会使用一或多台性能比较好的服务器来储存URL队列，告诉其

他服务器下载哪一个网页，另外的服务器只需要下载网页，然后分析出其中的URL链接，提交到性能较好的服务器上

即可。这种分布式处理方式可以加快爬虫速度，并提高了可靠性，一般搜索引擎都是使用了分布式处理方式。

第四个，如果你想爬取特定的信息，那么爬虫不能无限的爬下去，还要设置一个边界值，如果遇到这个边界值就会

自动停下来。可以设置搜索的层数，也可以设置搜索URL的范围。

我感觉，刚开始学习爬虫的时候，最难的不是程序如何写，而是之前的分析。首先要对你要爬的网页进行分析，找出

规律，写出正则分析，如果做到这一点，基本上完成了一半。

另外，还需要考虑到各种异常，做好异常处理，因为互联网本身是不稳定的，任何一个不稳定都会导致你的爬取中

断，这时候要保存好你已经爬好的内容，已经断点，方便滞后的重新爬取。

0 0