作业第二步——#1代码分析
来源:互联网 发布:2016cf网络出现异常 编辑:程序博客网 时间:2024/05/21 11:28
首先看一下Heritrix的架构图:
1。
CrawlController(下载控制器)整个下载过程的总的控制者,整个抓取工作的起点,决定整个抓取任务的开始和结束。从Frontier获取 URI,传递给线程池(ToePool)中的ToeThread处理。
2。 Frointier(边界控制器) 主要确定下一个将被处理的URI,负责访问的均衡处理,避免对某一web服务器造成太大的压力。它保存着crawl的状态:
(1)发现的URI(URIs have been discovered)
(2)正在被处理的URI(URIs are being processed (fetched))
(3)已经处理的URI(URIs have been processed) TeoThread(处理线程) Heritrix是多线程的,每一个URI被一个
ToeThread处理。
3。Processor(处理器) 下图为处理器的整个结构图
许多Processor组成一个处理链(processor chains)中,每一个处理链对URI进行一系列的处理。
(1)Pre-fetch processing chain(预处理链)
主要根据robot协议,DNS以及下载范围控制信息判断当前URI是否应当处理。
(2)Fetch processing chain(抓取处理链)
从远程服务器获取数据
(3) Extractor processing chain(抽取处理链)
从网页中抽取新的URI
(4)Write/index processing chain(写处理链)
负责把数据写入本地磁盘
(5)Post-processing chain(后置处理链)
- 作业第二步——#1代码分析
- 作业第二步—#2找出Politeness
- 新人产品分析——第二步
- 作业第二步——#3找出isUrlVisited
- 新人产品分析——第二步(2)
- lucene第二步 分析文档
- Linux初学第二步——Ubuntu
- 移植uboot第二步:分析uboot
- 算法分析与设计课程作业第二周#1
- uboot移植第二天——代码分析(2)
- 新人产品分析——第三步(1)
- 第二周作业——RSA算法
- 第二周作业——RSA算法
- 第二周作业 1
- 第二周作业1
- ASP.NET的十步学习法——第二步
- 三步学会用spring开发OSGI——(第二步:工程篇)
- 三步学会用spring开发OSGI——(第二步:工程篇)
- 细枝末节1
- 决明子提取物
- 几丁质
- debug与release区别
- 关闭转换屏幕
- 作业第二步——#1代码分析
- Java程序员的推荐阅读书籍
- cisco 理论 以太通道端口会聚协议(PAgP)与LACP的区别
- as3中函数传值是按引用来还是按值来传入参数
- 关于栈和堆
- JetBlue航空2012年底部署机上卫星宽带服务,9jT24T
- customize cookie component in cakephp
- spring核心:bean工厂的装配 6
- 结构体和类的区别