Heritrix3.1.1使用教程

来源：互联网发布：复制文件 linux 编辑：程序博客网时间：2024/05/29 06:27

本文讲如何安装和使用 Heritrix 最新的 3.1.0 版
下载地址：
http://sourceforge.net/projects/archive-crawler/files/heritrix3/3.1.0/
1.在cmd下面进入Heritrix的bin目录下
输入heritrix -a admin:admin，弹出新窗口，新窗口中运行heritrix
2.浏览中输入https://localhost:8443/
提示输入用户名和密码分别是 admin admin
注：有些浏览器可能无法访问，认为是不安全的url需做特殊设置比如IE ,本人是采用Google浏览器
得到界面如下
这里写图片描述
第一个输入框中写入任意Job名称，如sohu
第二个输入框如填写一个已存在的作业目录的路径，如果不写则默认存储在bin目录下的jobs文件夹下（不需填写）
3.点击create后，在任务列表中能看到新建的任务：

4.点击”sohu”任务：
这里写图片描述
crawler-beans.cxml是配置本次抓取任务的配置文件
5.点击edit：
修改配置文件中的内容后，点击左上角的”save change”保存本次修改
需修改以下几处
第一处：

第一个参数：operatorContactUrl 可以填写你的ip或者写成 http://localhost
第二个参数： jobName 任务名称
第三个参数：description 任务描述
第二处：
这里写图片描述
配置搜索种子网站的列表本案例从搜狐新闻抓取网页
第三处：

此处配置和第一处保持一致
这三个地方配置好，点击最上面的“Save changes”保存所有的配置文件，就可以运行这个抓取任务了
返回到任务控制页面让任务运行起来：
这里写图片描述
1）点击“build”编译当前的配置。
2）点击“launch”按钮运行当前任务至挂起状态，如果job已经运行，则先点击“teardown”按钮停止任务；
3）这时任务处于挂起状态（刷新以下页面，否则unpause不可点击），点击“unpause”即立即启动任务。
这里写图片描述
4）pause 暂停任务
5）terminate 终止任务
在D:\heritrix-3.1.0\bin\jobs\sohu\20161225024940\warcs目录下有一个逐步增大的文件，这就是抓取下来的网页，此文件无法查看每个网页的内容
如果要看到每个抓取的页面，可以将配置文件的warcWriter这个bean的class改为org.archive.modules.writer.MirrorWriterProcessor，这样就下载的网页是以镜像文件的形式保存在，一般存放在项目根目录下的mirror目录下
这里写图片描述

0 0