heritrix的模块结构
来源:互联网 发布:北洋军阀 书籍推荐知乎 编辑:程序博客网 时间:2024/05/22 11:39
1、Frontier(链接工厂)是Heritrix最核心的部分,有三个核心的方法:next,schedule,finished,其原型及作用如下:
a) next提供一个链接.Heritrix的所有处理线程(ToeThread)都是通过调用该方法获取链接的
b) schedule(CandidateURI caURI):调度待处理的链接
c) finished(CrawlURI cURI):完成一个已处理的链接
2 Processor(解析处理器),包含三个重要的类:
a) Processor(处理器类):代表一个处理器
b) ProcessorChain(处理器类):实现一个队列,由许多处理器链接成的处理器链
c) ProcessorChainList(处理器链列表):保存一次抓取任务的所有处理器链
3、采用线程池(ToeThread)设计,每个线程将调用所有的处理器来处理链接
4、中央控制器(CrawlController)是一次抓取任务的核心组件,决定每一次抓取任务的开始与结束,包含如下类型的数据成员:
a) CrawlOrder:它保存了对该次抓取任务中order.xml的属性配置。
b) CrawlScope:决定当前抓取范围的一个组件。
c) ProcessorChainList:表示处理器链。
d) Frontier:它是一个URL的处理器,决定下一个要被处理的URL是什么。
e) ToePool:它表示一个线程池,管理了所有该抓取任务所创建的子线程。
f) ServerCache:它表示一个缓冲池,保存了所有在当前任务中,抓取过的Host名称和Server名称。
5、处理链总体构成:
1) pre-fetch Chain :预处理链
2) fetch chain:抓取处理链 从服务器上获取网站数据
3) extractor Chain:从网页中抽取新的uri(词法分析)
4) write Chain:将数据写入本地磁盘
5) Post-processing Chain:后置处理链
- heritrix的模块结构
- Heritrix的主要模块
- heritrix的主要功能模块
- heritrix的结构
- Heritrix源码分析(六) Heritrix的文件结构分析
- 网络爬虫系统Heritrix的结构分析
- 详解Heritrix多线程结构
- Hibernate的模块结构
- 模块的基本结构
- Heritrix的使用入门
- Heritrix的MirrorWriter
- Heritrix的使用入门
- Heritrix的使用入门
- Heritrix的多线程抓取
- heritrix的启动问题
- Heritrix 的优化
- Heritrix 的常用技巧
- 关于heritrix的性能
- Flex打印
- jdk与jre的区别
- c# 无法加载DLL“###.dll”,: 找不到指定的模块。 (异常来自 HRESULT:0x8007007E)
- PnR basic - Terms and Concepts
- wince 驱动程序快速入门的好方法
- heritrix的模块结构
- 【转】聚集索引与非聚集索引
- JWFD最新更新
- pagecontroller最简单的方法
- DELPHI头文件顺序
- EXT的apply和applyif方法
- PHP实现定时功能
- ASP读写XML范例
- VC画圆