《HTTP权威指南》阅读笔记（九）

来源：互联网发布：大象vs鳄鱼知乎编辑：程序博客网时间：2024/04/29 07:42

1、 web机器人：能够在无需人类干预的情况下自动进行一系列web事务处理的软件程序。它们可以从一个web站点逛到另一个web站点，获取内容，跟踪超链，并对它们找到的数据进行处理。eg：“爬虫”、“蜘蛛”、“蠕虫”以及“机器人”等。

2、爬虫开始访问的URL初始集合被称作根集，使它能够到达大部分感兴趣的web页面。爬虫在web上移动时，会不停地对HTML 页面进行解析。它要对所解析的每个页面上的URL链接进行分析，将相对URL转换为绝对形式，并将这些链接添加到需要爬行的页面列表中去。爬行中药避免环路出现，防止死循环。

环路出现的可能原因：别名、文件系统连接环路、动态虚拟web空间。

避免环路的措施：

3、拒绝机器人访问：如果一个站点有robots.txt文件，那么在访问这个站点上的任意URL之前，机器人都必须获取它并对其进行处理，判断是否可以进行访问。

0 0