Heritrix1.14.4 Web后台使用简介

来源:互联网 发布:2017英国大学 知乎 编辑:程序博客网 时间:2024/06/11 10:24

原文地址:https://yq.aliyun.com/articles/46827


启动Heritrix后,访问http://localhost:6789就可以打开Heritrix的登录界面,登录后即进入了Heritrix Web后台的主页:

 console: Heritrix的控制台,会显示Heritrix的抓取任务和分配给HeritrixHeap使用情况

   JobsHeritrix的抓取任务界面,比如创建抓取任务,已挂起的任务,已完成的任务统计

   Profiles:Heritrix抓取任务相关的配置

   Logs:Heritrix的运行日志

   Reports:Heritrix的统计报表

   Setup:Heritrix实例管理界面以及Heritrix后台登录帐号密码修改

   Help:Heritrix的使用帮助文档

 

 首先我们需要切到Jobs界面,创建一个Job,如图:

 

  根据一个已经存在的job创建抓取任务

2.   根据一个抓取任务备份来创建抓取任务

3.   根据配置创建抓取任务

4.   按照默认方式创建抓取任务

asd   

    一般我们选择第3种创建方式:

 

 

 

 
关于Settings里相关配置项的含义解释说明请看下面这张图:

 
修改好后提交创建job,然后就能切到Console界面点击Start来启动抓取任务进行页面抓取

 

 
抓取到的网页默认保存在heritrix_hone\jobs目录下,我们创建的每个job都会在jobs目录下生成一个文件夹,命名方式为job名称+当前时间戳的方式,如图:

 
虽然Heritrixweb后台是全英文的,但我觉得没什么使用难度,你们多点点它的功能,从宏观上多感受下Heritrix的强大之处。最后是多阅读下Help界面里列出的一些帮助文档,这是你学习Heritrix最宝贵的资料:


启动Heritrix后,访问http://localhost:6789就可以打开Heritrix的登录界面,登录后即进入了Heritrix Web后台的主页:

 console: Heritrix的控制台,会显示Heritrix的抓取任务和分配给HeritrixHeap使用情况

   JobsHeritrix的抓取任务界面,比如创建抓取任务,已挂起的任务,已完成的任务统计

   Profiles:Heritrix抓取任务相关的配置

   Logs:Heritrix的运行日志

   Reports:Heritrix的统计报表

   Setup:Heritrix实例管理界面以及Heritrix后台登录帐号密码修改

   Help:Heritrix的使用帮助文档

 

 首先我们需要切到Jobs界面,创建一个Job,如图:

 

  根据一个已经存在的job创建抓取任务

2.   根据一个抓取任务备份来创建抓取任务

3.   根据配置创建抓取任务

4.   按照默认方式创建抓取任务

asd   

    一般我们选择第3种创建方式:

 

 

 

 
关于Settings里相关配置项的含义解释说明请看下面这张图:

 
修改好后提交创建job,然后就能切到Console界面点击Start来启动抓取任务进行页面抓取

 

 
抓取到的网页默认保存在heritrix_hone\jobs目录下,我们创建的每个job都会在jobs目录下生成一个文件夹,命名方式为job名称+当前时间戳的方式,如图:

 
虽然Heritrixweb后台是全英文的,但我觉得没什么使用难度,你们多点点它的功能,从宏观上多感受下Heritrix的强大之处。最后是多阅读下Help界面里列出的一些帮助文档,这是你学习Heritrix最宝贵的资料:


0 0
原创粉丝点击