Heritrix3.1.1使用教程

来源:互联网 发布:复制文件 linux 编辑:程序博客网 时间:2024/05/29 06:27

本文讲如何安装和使用 Heritrix 最新的 3.1.0 版
下载地址:
http://sourceforge.net/projects/archive-crawler/files/heritrix3/3.1.0/
1.在cmd下面进入Heritrix的bin目录下
输入heritrix -a admin:admin,弹出新窗口,新窗口中运行heritrix
2.浏览中输入https://localhost:8443/
提示输入用户名 和 密码 分别是 admin admin
注:有些浏览器可能无法访问,认为是不安全的url需做特殊设置 比如IE ,本人是采用Google浏览器
得到界面如下
这里写图片描述
第一个输入框中写入任意Job名称,如sohu
第二个输入框如填写一个已存在的作业目录的路径,如果不写则默认存储在bin目录下的jobs文件夹下(不需填写)
3.点击create后,在任务列表中能看到新建的任务:
这里写图片描述
4.点击”sohu”任务:
这里写图片描述
crawler-beans.cxml是配置本次抓取任务的配置文件
5.点击edit:
修改配置文件中的内容后,点击左上角的”save change”保存本次修改
需修改以下几处
第一处:
这里写图片描述
第一个参数:operatorContactUrl 可以填写你的ip或者写成 http://localhost
第二个参数: jobName 任务名称
第三个参数:description 任务描述
第二处:
这里写图片描述
配置搜索种子网站的列表本案例从搜狐新闻抓取网页
第三处:
这里写图片描述
此处配置和第一处保持一致
这三个地方配置好,点击最上面的“Save changes”保存所有的配置文件,就可以运行这个抓取任务了
返回到任务控制页面让任务运行起来:
这里写图片描述
1)点击“build”编译当前的配置。
2)点击“launch”按钮运行当前任务至挂起状态,如果job已经运行,则先点击“teardown”按钮停止任务;
3)这时任务处于挂起状态(刷新以下页面,否则unpause不可点击),点击“unpause”即立即启动任务。
这里写图片描述
4)pause 暂停任务
5)terminate 终止任务
在D:\heritrix-3.1.0\bin\jobs\sohu\20161225024940\warcs目录下有一个逐步增大的文件,这就是抓取下来的网页,此文件无法查看每个网页的内容
如果要看到每个抓取的页面,可以将配置文件的warcWriter这个bean的class改为org.archive.modules.writer.MirrorWriterProcessor,这样就下载的网页是以镜像文件的形式保存在,一般存放在项目根目录下的mirror目录下
这里写图片描述

0 0
原创粉丝点击