爬虫调研之Hetrix(1): 使用方法

来源：互联网发布：票据打印软件编辑：程序博客网时间：2024/05/16 02:00

同志们好~~~俺今天来分享一下我的Hetrix调研心得，呼呼。今天主要是第一部分，总体介绍和使用方法介绍。

1 啥子是Hetrix~

首先我们来看一下，什么是Hetrix喃？按照Heritrix网站上的简介：Heritrix is the Internet Archive's open-source, extensible, web-scale, archival-quality web crawler.（翻译一下：Heritrix是开放源代码，可扩展的，基于整个Web的，归档网络爬虫工程）

直白点说：：Heritrix为用Java实现的开源爬虫。目前的版本号为1.12.1。

2 咋个下载安装？

下载页面是：http://crawler.archive.org/downloads.html。

（1）在下载完Heritrix的完整开发包后，解压到本地的一个目录下，如下图所示（不太清楚，将就看）。

clip_image001

其中，Heritrix所用到的工具类库都存于lib下，heritrix-1.10.1.jar是Heritrix的Jar包。另外，在Heritrix目录下有一个conf目录，其中包含了一个很重要的文件：heritrix.properties。

（2）在heritrix.properties中配置了大量与Heritrix运行息息相关的参数，这些参数主要是配置了Heritrix运行时的一些默认工具类、WebUI的启动参数，以及Heritrix的日志格式等。当第一次运行Heritrix时，只需要修改该文件，为其加入WebUI的登录名和密码。

clip_image002

其中，用户名和密码是以一个冒号进行分隔，使用者可以指定任何的字符串做为用户名密码，图中所示只不过延续了Heritrix以前版本中默认的用户名和密码而已。

（3）在设置完登录名和密码后，就可以开始运行Heritrix了。Heritrix有多种方式启动，例如，可以使用CrawlController，以后台方式加载一个抓取任务，即为编程式启动。不过最常见的还是以WebUI的方式启动它。

（4）Heritrix的主类为org.archive.crawler.Heritrix，运行它，就可以启动Heritrix。当然，在运行它的时候，需要为其加上lib目录下的所有jar包。

（5）从WebUI运行的方法：Heritrix默认使用8080端口，输入http://localhost:8080即可打开Web UI。

clip_image003

输入配置的用户名和密码后，进入到主界面，如下图所示，显示的是当前状态。可以从Jobs里添加任务。

clip_image004

添加任务的类型有4种：

| Based on existing job：以一个已经有的抓取任务为模板，创建所有抓取属性和抓取起始URL的列表。

| Based on a recovery：在以前的某个任务中，可能设置过一些状态点，新的任务将从这个设置的状态点开始。

| Based on a profile：专门为不同的任务设置了一些模板，新建的任务将按照模板来生成。

| With defaults：这个最简单，表示按默认的配置来生成一个任务。

每添加一个任务即生成一个order.xml，它包括该用户所选择的Processor类、Frontier类、Fetcher类、抓取时线程的最大数量、连接超时的最大等待时间等信息。

具体操作设置方法见：http://book.csdn.net/bookfiles/312/10031212848.shtml