【转】 Heritrix运行和任务设置的学习总结
来源:互联网 发布:反恐精英 起源mac版 编辑:程序博客网 时间:2024/05/22 13:35
初步学习了Heritrix,这个网络小爬虫,以下是对其运行和任务设置的学习总结.
1.关于安装:
2.配置管理帐户:
(1) 将 D:/heritrix/heritrix-1.12.1.jar 解压,拷贝profiles/default 下的两个文件order.xml和seeds.txt复制到 /heritrix/conf 目录下,
(2) 拷贝 D:/heritrix/conf/jmxremote.password.template 到 D:/heritrix下,并且重命名为"jmxremote.password"。之后编辑该文件内容关于密码的部分:
monitorRole @PASSWORD@ ==> monitorRole admin
controlRole @PASSWORD@ ==> controlRole admin
修改完毕之后,保存该文件。并且需要将该文件的属性改为“只读”。
(3) 打开 /heritrix/conf 下的heritrix.properties文件,在“heritrix.cmdline.admin = ” 项的后面加入你所要设定的管理员账户和密码,用“:”分割,如:
heritrix.cmdline.admin = admin:admin
我在此处将管理员账户和密码都设置为admin.
3.运行Heritrix:[1] 将cmd定位到 D:/heritrix/bin,执行 "heritrix --admin=admin:admin" 命令,即可启动 heritrix,
有一点需要注意,heritrix默认使用8080端口,要保证系统端口没有冲突。之后便可以访问 http://127.0.0.1:8080 或http://localhost:8080 使用 heritrix 提供的WUI,即Web管理端。并且使用"admin/admin"登录。
[2]选Jobs选项,设置抓取页为http://news.sohu.com 具体设置如图:
[3] 选择Jobs菜单的“Settings”项进入运行参数设置页面 . 进入运行参数设置页面后,有很多可以设定的参数,对于需要了解详情的设置,请点击设置框左边的“?”号,可看到弹出的帮助信息。最简单的可只更改“HTTP-Header”项中的内容,更改其属性值“user-agent”和“from”。修改内容如图2:
[4] 设置完成后,点击如图3所示任务提交菜单项,即完成全部任务的建立工作。
通过提交设定好的任务,页面返回到Jobs的主菜单,可看到如图4画面:
在图6中,我们可以看到,要暂停当前任务可点击任务状态旁的选项“Pause”。
抓取页面会存放在我的工作目录下的mirror文件夹内,如图7:
图7抓取后的网站和文件保存结构
图7中可以看到,每一个站点的URL地址即为保存的目录名称,
其文件和对应的服务目录结构被保存到此目录下面。此处看出,Heritrix更像一个强大的网站下载工具。
至此,Heritrix的简单抓取任务设置描述完毕,呵呵。。。
补充:为了在抓取时不保存其他无关页面,可扩展FrontierScheduler来抓取特定的内容。
打包成新的heritrix-1.12.1.jar 文件,运行cmd执行此操作
方法一:将多个文件打包
D:/heritrix/heritrix-1.12.1>jar cvf heritrix-1.12.1.jar com modules my org profi
les selftest st heritrix.properties jndi.properties arcMetaheaderBody.xsl warcin
fobody.xsl
方法二:将整个文件目录打包
D:/heritrix/heritrix-1.12.1>jar cvf heritrix-1.12.1.jar heritrix-1.12.1
- 【转】 Heritrix运行和任务设置的学习总结
- Heritrix在Windows下的运行和简单任务设置
- Heritrix的配置和运行简单Job
- heritrix学习总结
- Heritrix学习总结
- 网络爬虫Heritrix的运行
- heritrix的启动与设置
- 【总结备用】Android 获取正在运行的任务和服务
- Heritrix使用的初步总结
- Heritrix使用的初步总结
- Heritrix使用的初步总结
- Heritrix使用的初步总结
- Heritrix使用的初步总结
- Heritrix使用的初步总结
- heritrix在windows下安装和运行
- Ubuntu下配置和运行Heritrix
- 2011-02-13 下载和运行Heritrix
- Heritrix在Windows下的安装,运行
- Symbian程序中的观察者模式
- 网络安全
- 搜索引擎早期重要论文推荐系列【1】
- php不能和MySQL连接
- C/C++中指针和引用之相关问题研究C/C++
- 【转】 Heritrix运行和任务设置的学习总结
- JFace DataBinding 中的 MultiValidator学习和体会
- 利用U盘重装系统的方法
- ip分片技术
- 浅谈Java的输入输出流
- 多行转换成字符串
- 观察者模式的故事--Symbian
- VMVare ESX
- Hive使用杂记