Heritrix1.14.4 Web后台使用简介
来源:互联网 发布:2017英国大学 知乎 编辑:程序博客网 时间:2024/06/11 10:24
原文地址:https://yq.aliyun.com/articles/46827
启动Heritrix后,访问http://localhost:6789就可以打开Heritrix的登录界面,登录后即进入了Heritrix Web后台的主页:
console: Heritrix的控制台,会显示Heritrix的抓取任务和分配给Heritrix的Heap使用情况
Jobs:Heritrix的抓取任务界面,比如创建抓取任务,已挂起的任务,已完成的任务统计
Profiles:Heritrix抓取任务相关的配置
Logs:Heritrix的运行日志
Reports:Heritrix的统计报表
Setup:Heritrix实例管理界面以及Heritrix后台登录帐号密码修改
Help:Heritrix的使用帮助文档
首先我们需要切到Jobs界面,创建一个Job,如图:
根据一个已经存在的job创建抓取任务
2. 根据一个抓取任务备份来创建抓取任务
3. 根据配置创建抓取任务
4. 按照默认方式创建抓取任务
asd
一般我们选择第3种创建方式:
关于Settings里相关配置项的含义解释说明请看下面这张图:
修改好后提交创建job,然后就能切到Console界面点击Start来启动抓取任务进行页面抓取
抓取到的网页默认保存在heritrix_hone\jobs目录下,我们创建的每个job都会在jobs目录下生成一个文件夹,命名方式为job名称+当前时间戳的方式,如图:
虽然Heritrix的web后台是全英文的,但我觉得没什么使用难度,你们多点点它的功能,从宏观上多感受下Heritrix的强大之处。最后是多阅读下Help界面里列出的一些帮助文档,这是你学习Heritrix最宝贵的资料:
启动Heritrix后,访问http://localhost:6789就可以打开Heritrix的登录界面,登录后即进入了Heritrix Web后台的主页:
console: Heritrix的控制台,会显示Heritrix的抓取任务和分配给Heritrix的Heap使用情况
Jobs:Heritrix的抓取任务界面,比如创建抓取任务,已挂起的任务,已完成的任务统计
Profiles:Heritrix抓取任务相关的配置
Logs:Heritrix的运行日志
Reports:Heritrix的统计报表
Setup:Heritrix实例管理界面以及Heritrix后台登录帐号密码修改
Help:Heritrix的使用帮助文档
首先我们需要切到Jobs界面,创建一个Job,如图:
根据一个已经存在的job创建抓取任务
2. 根据一个抓取任务备份来创建抓取任务
3. 根据配置创建抓取任务
4. 按照默认方式创建抓取任务
asd
一般我们选择第3种创建方式:
关于Settings里相关配置项的含义解释说明请看下面这张图:
修改好后提交创建job,然后就能切到Console界面点击Start来启动抓取任务进行页面抓取
抓取到的网页默认保存在heritrix_hone\jobs目录下,我们创建的每个job都会在jobs目录下生成一个文件夹,命名方式为job名称+当前时间戳的方式,如图:
虽然Heritrix的web后台是全英文的,但我觉得没什么使用难度,你们多点点它的功能,从宏观上多感受下Heritrix的强大之处。最后是多阅读下Help界面里列出的一些帮助文档,这是你学习Heritrix最宝贵的资料:
- Heritrix1.14.4 Web后台使用简介
- Heritrix1.14.4安装配置和使用
- Heritrix1.14.4在Eclipse的配置和使用
- Heritrix1.14.4配置
- heritrix1.14.4安装与配置
- Heritrix1.14.4抓取任务设置
- eclipse下配置Heritrix1.14.4
- 网络爬虫Heritrix1.14.4在MyEclipse中的安装配置与使用教程
- 在MyEclipse7.5配置Heritrix1.14.4
- 在Eclipse中构建Heritrix1.14.4
- eclipse下运行heritrix1.14.4报错
- 在Myeclise中配置heritrix1.14.4
- Heritrix1.14.4在Eclipse中的配置
- windows下配置Heritrix1.14.4安装配置
- web后台
- 在eclipse-SDK-4.2-win32-x86_64中构建Heritrix1.14.4
- heritrix1.14.4配置-没有add和change按钮的问题
- 在 eclipse 下的heritrix1.14.4的配置
- API 25 (Android 7.1.1 API) widget.AbsSpinner
- Android colorPrimary colorPrimaryDark colorAccent
- Retrofit使用及分析
- 通过数据库自动反向生成MyBatis文件
- C++ - 正则表达式(regex) 替换(replace) 的 详解 及 代码
- Heritrix1.14.4 Web后台使用简介
- Android自定义控件实现底部菜单栏
- z-index
- 前端使用html+css,表单型效果自我实现
- apache2: Could not reliably determine the server's fully qualified domain name 解决方法
- centos6.4下keepalived+nginx的高可用(LVS/DR模式)
- 腾讯、阿里、万达都想收购的股权
- 自定义ViewPager(二)
- Android Studio 获取数字签名的方法