Heritrix源码分析(四) 各个类说明(一)

来源：互联网发布：视频课程录像软件编辑：程序博客网时间：2024/06/05 08:35

Heritrix的类的确很繁琐,往往继承了一层又一层,最多的继承好像有7层。下面就一个包一个包的说明每个类的作用，由于里面Heritrix组件分明，很多组件没用到的同时该组件的类我也没怎么接触,所以这里会忽略一部分

1.org.archive.crawler序号类说明1CommandLineParserHeritrix也可以通过CMD命令进行操作,该类用于解析CMD命令2HeritrixHeritrix主类,可以通过该类启动Heritrix3SimpleHttpServerHeritrix Web服务器,可以通过Web管理Heritrix4WebappLifecycle封装Servlet,如此才可以通过Web启动Heritrix,里面装载Heritrix对象

2.org.archive.crawler.admin序号类说明1 CrawlJob Heritrix的核心类,代表着一个抓取任务,order.xml中大部分属性都围绕其配置,以后会着重说明2 CrawlJobErrorHandler 维护者一个抓取任务(CrawlJob)的错误日志,UI中显示的JOB错误就来自于它3 CrawlJobHandler 抓取任务处理器,Heritrix可以有多个抓取任务,都由它进行管理4 InvalidJobFileException 抓取任务文件异常,意义不大5 SeedRecord 记录种子的处理记录,如该种子重定向到哪个URL,在seeds.txt里面会有说明，该重定向值就来源于它6 StatisticsSummary 统计摘要类，所用不多7 StatisticsTracker Heritrix核心类，统计跟踪器,贯穿整个Heritrix的运行,如统计抓取了多少URL，以后会着重说明

3.org.archive.crawler.admin.ui序号类说明1CookieUtilsCookie工具类,主要用于访问Cookie2JobConfigureUtilsCrawlJob配置管理工具类,当你通过Web Ui去配置一个CrawlJob时就会用到这个类3RootFilter不熟

4.org.archive.crawler.datamodel序号类说明1CandidateURIHeritrix的核心类,代表着一个URL,贯穿整个抓取,与CrawlURI的区别是它还没有通过调度器(Frontier)，只有通过了调度器的URL才可能去获取网页内容区下载等，以后会着重说明2CandidateURITestCandidateURI的测试类,比如可以用它获知如何创建CanditeURI3CheckpointHeritrix会定期备份它的数据,如日志、正在获取的URL内容，都是在底层定时运行,当Heritrix异常中断可以通过它来恢复.也类似于各个数据库的Ckeckpoint4CoreAttributeConstants装载着Heritrix的基本属性变量名,一般是对应order.xml中的标签名5CrawlHostHeiritrix的核心类,代表着一个Host，里面主要包含域名、IP。由于Heritrix可以控制抓取速度，如对一个Host的抓取速度,这个类就代表着那个Host.以后会着重说明6CrawlOrderHeritrix的核心类,基本上对应着order.xml的各个属性值,除了各个组件的详细属性，以后会着重说明7CrawlServerHeritrix的核心类,也对应着一个Host,里面装载着一个Host的各种Heritrix数据,如统计信息、爬虫协议8CrawlSubstats抓取统计类,主要统计抓取Url的个数、成功的个数、下载的字节数等等9CrawlURICandidateURI的子类,主要比CaidiateURI多了网页内容指纹、所属队列、组件处理器等10 CredentialStore 凭证存储类，负责存储各种凭证,如登陆11 FetchStatusCodes 抓取状态,有不同的属性代表不同的抓取状态,如DNS获取成功：S_DNS_SUCCESS12 RobotsHonoringPolicy 爬虫协议,代表着不同的抓取策略13 Robotstxt 爬虫协议,用于解析robots.txt14 ServerCache 服务器缓存,主要缓存CrawlHost和CrawlServer15UriUniqFilter接口,用于过滤已经抓取过的URL

5.org.archive.crawler.datamodel.credential

序号类说明1Credential凭证类,代表着一个凭证,从order.xml配置文件中获取数据2CredentialAvatar代表着一个具体的凭证3HtmlFormCredentialCredential的子类,代表着提交HTML FORM表单时所需要的凭证4Rfc2617CredentialCredential的子类,代表着RFC2617 HTTP 认证凭证

6.org.archive.crawler.deciderules序号类说明1AcceptDecideRuleURL规则,表示接受2ConfiguredDecideRuleURL规则，通过order.xml文件中的配置来决定是否拒绝(REJECT)或接受(ACCEPT)3DecideRuleURL规则的父类,审核一个URL是否接受(ACCEPT)、拒绝(REJECT)或放弃(PASS),通过decisionFor(Object object)方法,该方法由其子类实现4 DecidingScope 验证一个URL是否在范围来决定是否接受、拒绝或放弃5 MatchesRegExpDecideRule 通过配置的正则表达式来决定URL是否可接受、拒绝或放弃6 NotMatchesRegExpDecideRule MatchesRegExpDecideRule的子类,如果URL不匹配该正则则接受7 PathologicalPathDecideRule 如果URL中相同目录名超过配置文件中的个数,则拒绝,如http://www.xxx.com/a/a/a/a/a其中a的个数超过一定限制则拒绝8 PrerequisiteAcceptDecideRule 如果URL中有先决条件URL则接受,也就是该CandidateURI里的pathFromSeed属性里含有P,表示运行该URL之前有先要运行的URL9 RejectDecideRule URL规则，表示拒绝10 TooManyHopsDecideRule 如果超过配置文件中的约点数(max-hops),则拒绝

7.org.archive.crawler.event序号类说明1CrawlStatusListener爬虫监听器,如监听爬虫是否在运行，是否暂停等2CrawlURIDispositionListenerURL监听器,如监听URL是否失败，是要要重新抓取等

8.org.archive.crawler.extractor序号类说明1Extractor所有抽取类的父类,用于从一个URL中抽取出新的URL2ExtractorCSS从CSS中抽取出新的URL3ExtractorDOC从DOC中抽取出新的URL4ExtractorHTML从HTML中抽取出新的URL,Heritrix核心类5ExtractorHTTP从HTTP中抽取出新的URL6ExtractorJS从Javascript中抽取出新的URL7ExtractorPDF从PDF中抽取出新的URL8ExtractorSWF从SWF中抽取出新的URL9ExtractorXML从XML中抽取出新的URL10HTTPContentDigest网页内容文摘,实际上是通过MD5或SHA1算法将网页内容指纹化11Link链接,代表抽取出来的URL