网络爬虫的选择策略

来源:互联网 发布:淘宝有电话发给我 编辑:程序博客网 时间:2024/05/29 04:45

选择策略 

就现在网络资源的大小而言,即使大型搜索引擎也只能获取网络上可得到资源的一小部分。一项2005年的研究显示一个大型搜索引擎检索内容不超过可检索内容的40%-70%[6] Dr. Steve Lawrence Lee Giles1999共同做的一项研究指出,没有一个搜索引擎抓取的内容达到网络的16%[7] 网络爬虫通常仅仅下载网页内容的一部分,但是大家都还是强烈要求下载的部分包括最多的相关页面,而不仅仅是一个随机简单的网页。

这就要求一个公共标准来区分网页的重要程度,一个页面的重要程度与其自身的质量有关,与链接数、访问数得出的受欢迎程度有关,甚至与他本身的网址(后来出现的垂直搜索引擎则限制在一级域名或者固定页面上)有关。设计一个好的搜索策略还有另外的困难,它必须在使用局部信息工作,因为整个页面的集合在抓取时是未知的。

Cho等人做了第一份抓取策略的研究。他们的数据是斯坦福大学网站中的18万个页面,使用不同的策略分别模仿抓取。[8]排序的方法使用了宽度优先,反向链接计数和部分pagerank算法。其中一个结论显示,如果你想要在抓取过程中优先下载pagerank高的页面,那么,部分PageRank策略是比较好的,其次是宽度优先和反向链接计数。当时,这样的结果仅仅是针对一个简单的域名。Chao还在斯坦福大学完成了他关于网页抓取的博士论文。[9]

NajorkWiener采用实际的爬虫,对3.28亿个网页,采用宽度优先顺序进行爬行。[10] 他们发现宽度优先会较早的抓到PageRank高的页面(但是他们与其他策略进行对比研究)。作者给出的解释是:最重要的页面会有很多主机连接到它们,并且那些链接会较早的发现,而不用考虑从哪一个主机或页面开始的。

Abiteboul设计了一种基于OPIC算法(在线页面重要指数)的抓取战略。[11] OPIC中,每一个页面都有一个相等的初始权值,并把这些权值平均分给它所指向的页面。这种算法与Pagerank估算相似,但是它的速度更快,并且可以一步完成。OPIC的程序首先抓取抓取前沿中获取权值最大的页面。实验是在10万个幂指分布的模拟页面中进行的。当时,实验仍然没有和其它策略进行比较,也没有在真正的WEB页面测试。

Boldi等人的模拟检索实验进行在 从.it域名上取下的4000万个页面和从webbase得到的1 Daneshpajouh等人设计了一个用于寻找好种子的社区。.[15]它们从来自不同社区的高PageRank页面开始检索的方法,迭代次数明显小于使用随机种子的检索。使用这种方式,可以从以前抓取页面之中找到好的种子,使用这些种子是十分有效的。

亿个页面上,针对于深度优先测试宽度优先,随机序列和有序序列策略。比较基于在真实页面中pageRank处于局部抓取的情况计算出的值和pageRank真实值的接近程度。令人惊奇的是,一些计算pageRank很快的页面(特别明显的是使用宽度优先策略和有序序列的)仅仅达到很小的接近程度。[12][13] 

Baeza-Yates等人在从.gr域名和.cl域名子网站上获取的300万个页面上模拟实验,比较若干个抓取策略。[14]结果显示OPIC策略和站点队列长度,都比宽度优先要好;并且如果可行的话,使用之前的爬行抓取结果来指导这次抓取,总是十分有效的。

 

 

 

原创粉丝点击