一个设计良好的爬虫架构必须满足的要求
来源:互联网 发布:流水灯c语言程序 编辑:程序博客网 时间:2024/05/14 05:30
(1)分布式:爬虫应该能够在多台机器上分布执行;
(2)可伸缩性:爬虫结构应该能够通过增加额外的机器和带宽来提高抓取速度;
(3)性能和有效性:爬虫系统必须有效地使用各种系统资源,例如,处理器、存储空间和网络带宽。
(4)质量:鉴于互联网的发展速度,大部分网页都不可能及时出现在用户查询中,所以爬虫应该首先抓区有用的网页。
(5)新鲜性:在许多应用中,爬虫应该持续运行而不是只遍历一次。
(6)更新:因为网页会经常更新,例如论坛网站会经常有回帖。爬虫应该尽可能取得已经获取的页面的新的拷贝。例如一个搜索引擎爬虫要能保证全文索引中包 含每个索引页面的较新的状态。对于搜索引擎爬虫这样的连续的抓取,爬虫访问一个页面的频率应该和这个网页的更新频率一致。
(7)可扩展性:为了能够支持新的数据格式和新的抓取协议,爬虫架构应该设计成模块化的形式。
- 一个设计良好的爬虫架构必须满足的要求
- 良好的网络爬虫架构
- 如何能够成功设计良好的架构
- Yii 良好的架构(schema)设计指南
- 设计一个DNS的Cache结构,要求能够满足每秒5000以上的查询,满足IP数据的快速插入,查询的速度要快
- 如何做一个满足市场和客户要求的产品?
- 定义一个满足如下要求的Date类
- 谷歌八道面试题--【1】求一个满足要求的数组
- 一道面试题:求一个满足要求的数组
- 谷歌面试题之求一个满足要求的数组
- 良好的监控架构
- OGRE的良好架构
- 程序代码的良好设计
- 良好的设计习惯
- 数据库良好的设计
- 第一篇 android架构是如何满足设计目标的?
- 程序员必须养成良好的代码习惯
- SEOer必须拥有良好的学习能力
- 2013第一周上级任务项目3(求成绩)
- Spring 资源访问剖析和策略模式应用
- JBPM4.4的包安装及配置
- jQuery扩展函数的用法
- 黑马程序员 IO流整理
- 一个设计良好的爬虫架构必须满足的要求
- android布局文件 merge 标签的使用
- java_IO流之FileInputStream和FileOutputStream
- howdoi源码阅读
- 【九度OJ】 1006
- ThinkPad T430s 摄像头黑屏解决
- jQuery 入门教程(4): Events
- Android上传文件至服务器
- 一淘架构