heritrix中的一些类的方法

来源:互联网 发布:北洋军阀 书籍推荐知乎 编辑:程序博客网 时间:2024/05/19 22:03

一些类中的重要数据成员及方法

1、Processor处理器

       Process方法:被定义为final类型的,即不能被覆盖;调用innerProcess方法

       InnerProcess方法:定义为protected,由其子类来实现

2、ProcessorChain类

       ProcessMap:存放当前的Chain中的所有processor

       nextChain:指向下一个处理器链

       firstProcessor:指向第一个处理器

3、ProcessorChainList类

       数据成员中包含五种类型的ProcessorChain

4、ToeThread类

       该类是线程池中的一个线程类,调用所有的处理器来处理一个链接。

 

       (1)ProcessCrawlUri方法:Heritrix的核心所在,设置双重循环来遍历整个处理器链的结构。第一重遍历处理器链,第二重遍历链内部每一个每一个Processor,并调用当前遍历的Processor的process方法处理uri。

       (2)Run方法:

         a) 调用Frontier中的next方法获取下一个uri;

         b) 调用本类中的processCrawlUri来处理当前的uri;

         c)  调用Frontier类中的finished方法;

 

原创粉丝点击