初识网络爬虫

来源:互联网 发布:淘宝一手货源可靠吗 编辑:程序博客网 时间:2024/06/07 02:00

网络爬虫已经是一个老生常谈的问题,网上也有很多的资料,不过这里我还是决定记录下自己的学习心得简单的来说,网络爬虫就是自动从互联网中定向或不定向的采集信息的一种程序。网络爬虫有很多种类型,常用的有通用爬虫,聚焦网络爬虫等。网络爬虫可以做很多事情,比如通用的网络爬虫可以应用在搜索引擎中,而聚焦爬虫可以从互联网中自动采集信息并代替我们筛选出相关的数据。

 一、通用网络爬虫原理:

        



通用网络爬虫的基本工作流程如下:   

1)获取初始的URL。初始的URL地址可以由用户人为地指定,也可以由用户指定的某个或某几个初始爬取网页决定。

2)根据初始的URL爬取页面并获得新的URL。获得初始的URL地址之后,首先需要爬取对应URL地址中的网页,爬取了对应的URL地址中的网页后,将网页存储到原始数据库中,并且在爬取网页的同时,发现新的URL地址,同时将已爬取的URL地址存放到一个URL列表中,用于去重及判断爬取的进程。

3)将新的URL放到URL队列中。在第2步中,获取了下一个新的URL地址之后,会将新的URL地址放到URL队列中。

4)从URL队列中读取新的URL,并依据新的URL爬取网页,同时从新网页中获取新URL,并重复上述的爬取过程。

5)满足爬虫系统设置的停止条件时,停止爬取。在编写爬虫的时候,一般会设置相应的停止条件。如果没有设置停止条件,爬虫则会一直爬取下去,一直到无法获取新的URL地址为止,若设置了停止条件,爬虫则会在停止条件满足时停止爬取。


二、聚焦网络爬虫



聚焦网络爬虫的基本工作流程如下:

1)对爬取目标的定义和描述。在聚焦网络爬虫中,首先要依据爬取需求定义好该聚焦网络爬虫爬取的目标,以及进行相关的描述。

2)获取初始的URL。

3)根据初始的URL爬取页面,并获得新的URL。

4)从新的URL中过滤掉与爬取目标无关的链接。因为聚焦网络爬虫对网页的爬取是有目的性的,所以与目标无关的网页将会被过滤掉。同时,也需要将已爬取的URL地址存放到一个URL列表中,用于去重和判断爬取的进程。

5)将过滤后的链接放到URL队列中。

6)从URL队列中,根据搜索算法,确定URL的优先级,并确定下一步要爬取的URL地址。在通用网络爬虫中,下一步爬取哪些URL地址,是不太重要的,但是在聚焦网络爬虫中,由于其具有目的性,故而下一步爬取哪些URL地址相对来说是比较重要的。对于聚焦网络爬虫来说,不同的爬取顺序,可能导致爬虫的执行效率不同,所以,我们需要依据搜索策略来确定下一步需要爬取哪些URL地址。

7)从下一步要爬取的URL地址中,读取新的URL,然后依据新的URL地址爬取网页,并重复上述爬取过程。

8)满足系统中设置的停止条件时,或无法获取新的URL地址时,停止爬行。