爬虫

来源:互联网 发布:网络直播利弊有哪些 编辑:程序博客网 时间:2024/04/29 22:22

前一段时间学习了一点python,最近又了解了一些有关网络爬虫的知识,下面根据我的理解,简单说一下爬虫。



   
网络爬虫,是一段小程序,它能够自动下载网络资源。它就像一只蜘蛛,在各个网页之间爬来爬去,并把爬过的网

页中感兴趣的东西下载下来,这些网页中的url链接就是蜘蛛网的丝。



   
一个简单的爬虫工作过程大概是这样的:它先向服务器发送一个请求,得到返回后获得了一个网页,之后分析这个

网页,把其中所有的URL提取出来,如果原来的队列中没有,就把这些URL放入队列中等待下载,之后再从队列中拿

出一个新的URL,重复上面的过程。上面这些过程都是自动完成的。


   
爬虫抽象出来就是图的遍历,每个网页可以看成一个节点,网页中的URL链接可以看成边,对这些网页的遍历就要

用到广度优先搜索(BFS)。爬虫的原理就是这么简单,但实际中要考虑的东西有很多,下面主要谈一下遇到的问题

以及对应的解决方法。



   
第一个,就是如果一个网页无法打开,就会使程序死在那儿。对应的方法是,把对应的请求代码放在一个异常处理

中,如果遇到打不开的网页,或经过一定时间无法打开的网页,直接抛出异常,然后继续下一个请求。这是相对简单

的问题。



   
第二个,就是对URL队列遍历的问题。等到爬虫运行一段时间后,等待下载的URL会很多,这时每次对URL队列进

行遍历会占用很多时间。对应的处理方发就是使用散列表,即hash表,这样每次遍历查找的时间复杂度就是O(1)。但

是,这就产生了另一个问题,小规模的还无所谓,如果规模达到一定程度,hash表就会占用很多内存,甚至一台电脑

的内存无法加载整个hash表。我查找了一些资料,在一些搜索引擎上会使用布隆过滤器来解决这个问题,它只需要

hash表的1/81/4就能解决相同问题。



   
第三个,有时候要遍历的网页太多了,如何加快速度。这个问题在搜索引擎中是个很基本的问题,对应的解决方法

就是分布式处理,就是使用更多的服务器共同爬。通常会使用一或多台性能比较好的服务器来储存URL队列,告诉其

他服务器下载哪一个网页,另外的服务器只需要下载网页,然后分析出其中的URL链接,提交到性能较好的服务器上

即可。这种分布式处理方式可以加快爬虫速度,并提高了可靠性,一般搜索引擎都是使用了分布式处理方式。



   
第四个,如果你想爬取特定的信息,那么爬虫不能无限的爬下去,还要设置一个边界值,如果遇到这个边界值就会

自动停下来。可以设置搜索的层数,也可以设置搜索URL的范围。





我感觉,刚开始学习爬虫的时候,最难的不是程序如何写,而是之前的分析。首先要对你要爬的网页进行分析,找出

规律,写出正则分析,如果做到这一点,基本上完成了一半。


另外,还需要考虑到各种异常,做好异常处理,因为互联网本身是不稳定的,任何一个不稳定都会导致你的爬取中

断,这时候要保存好你已经爬好的内容,已经断点,方便滞后的重新爬取。


0 0
原创粉丝点击