爬虫调研之Hetrix(1): 使用方法

来源:互联网 发布:票据打印软件 编辑:程序博客网 时间:2024/05/16 02:00

同志们好~~~俺今天来分享一下我的Hetrix调研心得,呼呼。今天主要是第一部分,总体介绍和使用方法介绍。

1 啥子是Hetrix~

首先我们来看一下,什么是Hetrix喃?按照Heritrix网站上的简介:Heritrix is the Internet Archive's open-source, extensible, web-scale, archival-quality web crawler.(翻译一下:Heritrix是开放源代码,可扩展的,基于整个Web的,归档网络爬虫工程)

直白点说::Heritrix为用Java实现的开源爬虫。目前的版本号为1.12.1。

2 咋个下载安装?

下载页面是:http://crawler.archive.org/downloads.html。

(1)在下载完Heritrix的完整开发包后,解压到本地的一个目录下,如下图所示(不太清楚,将就看)。

clip_image001

其中,Heritrix所用到的工具类库都存于lib下,heritrix-1.10.1.jar是Heritrix的Jar包。另外,在Heritrix目录下有一个conf目录,其中包含了一个很重要的文件:heritrix.properties。

(2)在heritrix.properties中配置了大量与Heritrix运行息息相关的参数,这些参数主要是配置了Heritrix运行时的一些默认工具类、WebUI的启动参数,以及Heritrix的日志格式等。当第一次运行Heritrix时,只需要修改该文件,为其加入WebUI的登录名和密码。

clip_image002

其中,用户名和密码是以一个冒号进行分隔,使用者可以指定任何的字符串做为用户名密码,图中所示只不过延续了Heritrix以前版本中默认的用户名和密码而已。

(3)在设置完登录名和密码后,就可以开始运行Heritrix了。Heritrix有多种方式启动,例如,可以使用CrawlController,以后台方式加载一个抓取任务,即为编程式启动。不过最常见的还是以WebUI的方式启动它。

(4)Heritrix的主类为org.archive.crawler.Heritrix,运行它,就可以启动Heritrix。当然,在运行它的时候,需要为其加上lib目录下的所有jar包。

(5)从WebUI运行的方法:Heritrix默认使用8080端口,输入http://localhost:8080即可打开Web UI。

clip_image003

输入配置的用户名和密码后,进入到主界面,如下图所示,显示的是当前状态。可以从Jobs里添加任务。

clip_image004

添加任务的类型有4种:

|  Based on existing job:以一个已经有的抓取任务为模板,创建所有抓取属性和抓取起始URL的列表。

| Based on a recovery:在以前的某个任务中,可能设置过一些状态点,新的任务将从这个设置的状态点开始。

|  Based on a profile:专门为不同的任务设置了一些模板,新建的任务将按照模板来生成。

|  With defaults:这个最简单,表示按默认的配置来生成一个任务。

每添加一个任务即生成一个order.xml,它包括该用户所选择的Processor类、Frontier类、Fetcher类、抓取时线程的最大数量、连接超时的最大等待时间等信息。

具体操作设置方法见:http://book.csdn.net/bookfiles/312/10031212848.shtml

原创粉丝点击