《HTTP权威指南》阅读笔记(九)
来源:互联网 发布:大象vs鳄鱼 知乎 编辑:程序博客网 时间:2024/04/29 07:42
1、 web机器人:能够在无需人类干预的情况下自动进行一系列web事务处理的软件程序。它们可以从一个web站点逛到另一个web站点,获取内容,跟踪超链,并对它们找到的数据进行处理。eg:“爬虫”、“蜘蛛”、“蠕虫”以及“机器人”等。
2、爬虫开始访问的URL初始集合被称作根集,使它能够到达大部分感兴趣的web页面。爬虫在web上移动时,会不停地对HTML 页面进行解析。它要对所解析的每个页面上的URL链接进行分析,将相对URL转换为绝对形式,并将这些链接添加到需要爬行的页面列表中去。爬行中药避免环路出现,防止死循环。
环路出现的可能原因:别名、文件系统连接环路、动态虚拟web空间。
避免环路的措施:
3、拒绝机器人访问:如果一个站点有robots.txt文件,那么在访问这个站点上的任意URL之前,机器人都必须获取它并对其进行处理,判断是否可以进行访问。
0 0
- 《HTTP权威指南》阅读笔记(九)
- 《HTTP权威指南》阅读笔记(一)
- 《HTTP权威指南》阅读笔记(二)
- 《HTTP权威指南》阅读笔记(三)
- 《HTTP权威指南》阅读笔记(四)
- 《HTTP权威指南》阅读笔记(五)
- 《HTTP权威指南》阅读笔记(六)
- 《HTTP权威指南》阅读笔记(七)
- 《HTTP权威指南》阅读笔记(八)
- HTTP 权威指南 阅读笔记
- 阅读《http权威指南》
- hadoop 权威指南 阅读笔记(一)
- hadoop权威指南 阅读笔记(二)
- hadoop权威指南阅读笔记(一)
- 《JavaScript权威指南》阅读笔记(1)
- 《JavaScript权威指南》阅读笔记(2)
- 《JavaScript权威指南》阅读笔记(3)
- MongoDB权威指南--阅读笔记(一)
- ios自动化打包
- dubbo 教程
- 2015-0826-osg学习历程1
- 初始化、赋值的区别
- URL地址中的中文乱码问题的解决
- 《HTTP权威指南》阅读笔记(九)
- Note For Linux By Jes(11)-程序管理与SELinux 初探
- Android Activity补充
- 使用Fuse编写文件系统
- 自定义组合控件的使用
- hdu5375 Gray code(动态规划)
- Tomcat 配置
- leetcode 242 Valid Anagram(难易度:Easy)
- Android解析JSON方式 服务器端生成JSON数据--很好的例子