爬虫
来源:互联网 发布:网络直播利弊有哪些 编辑:程序博客网 时间:2024/04/29 22:22
前一段时间学习了一点python,最近又了解了一些有关网络爬虫的知识,下面根据我的理解,简单说一下爬虫。
网络爬虫,是一段小程序,它能够自动下载网络资源。它就像一只蜘蛛,在各个网页之间爬来爬去,并把爬过的网
页中感兴趣的东西下载下来,这些网页中的url链接就是蜘蛛网的丝。
一个简单的爬虫工作过程大概是这样的:它先向服务器发送一个请求,得到返回后获得了一个网页,之后分析这个
网页,把其中所有的URL提取出来,如果原来的队列中没有,就把这些URL放入队列中等待下载,之后再从队列中拿
出一个新的URL,重复上面的过程。上面这些过程都是自动完成的。
爬虫抽象出来就是图的遍历,每个网页可以看成一个节点,网页中的URL链接可以看成边,对这些网页的遍历就要
用到广度优先搜索(BFS)。爬虫的原理就是这么简单,但实际中要考虑的东西有很多,下面主要谈一下遇到的问题
以及对应的解决方法。
第一个,就是如果一个网页无法打开,就会使程序死在那儿。对应的方法是,把对应的请求代码放在一个异常处理
中,如果遇到打不开的网页,或经过一定时间无法打开的网页,直接抛出异常,然后继续下一个请求。这是相对简单
的问题。
第二个,就是对URL队列遍历的问题。等到爬虫运行一段时间后,等待下载的URL会很多,这时每次对URL队列进
行遍历会占用很多时间。对应的处理方发就是使用散列表,即hash表,这样每次遍历查找的时间复杂度就是O(1)。但
是,这就产生了另一个问题,小规模的还无所谓,如果规模达到一定程度,hash表就会占用很多内存,甚至一台电脑
的内存无法加载整个hash表。我查找了一些资料,在一些搜索引擎上会使用布隆过滤器来解决这个问题,它只需要
hash表的1/8到1/4就能解决相同问题。
第三个,有时候要遍历的网页太多了,如何加快速度。这个问题在搜索引擎中是个很基本的问题,对应的解决方法
就是分布式处理,就是使用更多的服务器共同爬。通常会使用一或多台性能比较好的服务器来储存URL队列,告诉其
他服务器下载哪一个网页,另外的服务器只需要下载网页,然后分析出其中的URL链接,提交到性能较好的服务器上
即可。这种分布式处理方式可以加快爬虫速度,并提高了可靠性,一般搜索引擎都是使用了分布式处理方式。
第四个,如果你想爬取特定的信息,那么爬虫不能无限的爬下去,还要设置一个边界值,如果遇到这个边界值就会
自动停下来。可以设置搜索的层数,也可以设置搜索URL的范围。
我感觉,刚开始学习爬虫的时候,最难的不是程序如何写,而是之前的分析。首先要对你要爬的网页进行分析,找出
规律,写出正则分析,如果做到这一点,基本上完成了一半。
另外,还需要考虑到各种异常,做好异常处理,因为互联网本身是不稳定的,任何一个不稳定都会导致你的爬取中
断,这时候要保存好你已经爬好的内容,已经断点,方便滞后的重新爬取。
- 爬虫
- 爬虫
- 爬虫
- 爬虫
- 爬虫
- 爬虫
- 爬虫
- 爬虫
- 爬虫
- 爬虫
- 爬虫
- 爬虫
- 爬虫
- 爬虫
- 爬虫
- 爬虫
- 爬虫
- 爬虫
- Unity中直接使用transform和gameObject的效率测试
- matlab plot 属性设置
- Floodlight开发者文档之PKTinHistory
- struct rtable
- shell编程基础 脚本
- 爬虫
- 盗版Windows 10将会给桌面打上水印
- 学习Objective-C
- 关于CABasicAnimation的详细用法
- Error Number : 1547 Error Message: Column count of mysql.proc is wrong. Expected 20, found 16. The
- 将JSON转换成MAP的工具类
- 无向图的割顶(poj1523,1144)
- 第35讲—项目四
- 第十周阅读程序(1):继承与派生