《HTTP权威指南》阅读笔记(九)

来源:互联网 发布:大象vs鳄鱼 知乎 编辑:程序博客网 时间:2024/04/29 07:42

         1、 web机器人:能够在无需人类干预的情况下自动进行一系列web事务处理的软件程序。它们可以从一个web站点逛到另一个web站点,获取内容,跟踪超链,并对它们找到的数据进行处理。eg:“爬虫”、“蜘蛛”、“蠕虫”以及“机器人”等。

          2、爬虫开始访问的URL初始集合被称作根集,使它能够到达大部分感兴趣的web页面。爬虫在web上移动时,会不停地对HTML 页面进行解析。它要对所解析的每个页面上的URL链接进行分析,将相对URL转换为绝对形式,并将这些链接添加到需要爬行的页面列表中去。爬行中药避免环路出现,防止死循环。

             环路出现的可能原因:别名、文件系统连接环路、动态虚拟web空间。

            避免环路的措施:           

            


          3、拒绝机器人访问:如果一个站点有robots.txt文件,那么在访问这个站点上的任意URL之前,机器人都必须获取它并对其进行处理,判断是否可以进行访问。

0 0
原创粉丝点击