网络爬虫的选择策略

来源：互联网发布：淘宝有电话发给我编辑：程序博客网时间：2024/05/29 04:45

选择策略

就现在网络资源的大小而言，即使大型搜索引擎也只能获取网络上可得到资源的一小部分。一项2005年的研究显示一个大型搜索引擎检索内容不超过可检索内容的40%-70%。^[6]由 Dr. Steve Lawrence和 Lee Giles在1999共同做的一项研究指出，没有一个搜索引擎抓取的内容达到网络的16%。^[7] 网络爬虫通常仅仅下载网页内容的一部分，但是大家都还是强烈要求下载的部分包括最多的相关页面，而不仅仅是一个随机简单的网页。

这就要求一个公共标准来区分网页的重要程度，一个页面的重要程度与其自身的质量有关，与链接数、访问数得出的受欢迎程度有关，甚至与他本身的网址（后来出现的垂直搜索引擎则限制在一级域名或者固定页面上）有关。设计一个好的搜索策略还有另外的困难，它必须在使用局部信息工作，因为整个页面的集合在抓取时是未知的。

Cho等人做了第一份抓取策略的研究。他们的数据是斯坦福大学网站中的18万个页面，使用不同的策略分别模仿抓取。^[8]排序的方法使用了宽度优先，反向链接计数和部分pagerank算法。其中一个结论显示，如果你想要在抓取过程中优先下载pagerank高的页面，那么，部分PageRank策略是比较好的，其次是宽度优先和反向链接计数。当时，这样的结果仅仅是针对一个简单的域名。Chao还在斯坦福大学完成了他关于网页抓取的博士论文。^[9]

Najork和Wiener采用实际的爬虫，对3.28亿个网页，采用宽度优先顺序进行爬行。^[10] 他们发现宽度优先会较早的抓到PageRank高的页面（但是他们与其他策略进行对比研究）。作者给出的解释是：“最重要的页面会有很多主机连接到它们，并且那些链接会较早的发现，而不用考虑从哪一个主机或页面开始的。”

Abiteboul设计了一种基于OPIC算法（在线页面重要指数）的抓取战略。^[11] 在OPIC中，每一个页面都有一个相等的初始权值，并把这些权值平均分给它所指向的页面。这种算法与Pagerank估算相似，但是它的速度更快，并且可以一步完成。OPIC的程序首先抓取抓取前沿中获取权值最大的页面。实验是在10万个幂指分布的模拟页面中进行的。当时，实验仍然没有和其它策略进行比较，也没有在真正的WEB页面测试。

Boldi等人的模拟检索实验进行在从.it域名上取下的4000万个页面和从webbase得到的1 Daneshpajouh等人设计了一个用于寻找好种子的社区。.^[15]它们从来自不同社区的高PageRank页面开始检索的方法，迭代次数明显小于使用随机种子的检索。使用这种方式，可以从以前抓取页面之中找到好的种子，使用这些种子是十分有效的。

亿个页面上，针对于深度优先测试宽度优先，随机序列和有序序列策略。比较基于在真实页面中pageRank处于局部抓取的情况计算出的值和pageRank真实值的接近程度。令人惊奇的是，一些计算pageRank很快的页面（特别明显的是使用宽度优先策略和有序序列的）仅仅达到很小的接近程度。^[12]^[13]

Baeza-Yates等人在从.gr域名和.cl域名子网站上获取的300万个页面上模拟实验，比较若干个抓取策略。^[14]结果显示OPIC策略和站点队列长度，都比宽度优先要好；并且如果可行的话，使用之前的爬行抓取结果来指导这次抓取，总是十分有效的。