Heritrix 工具化
来源:互联网 发布:adobe br是什么软件 编辑:程序博客网 时间:2024/05/02 01:28
Heritrix 工具化
为了方便开发,我们需要定制Heritrix然后打包,作为一个工具来使用。
为此我们需要:
1) 免登陆
2) 统一输出路径
3) 默认order.xml
4) 用bat启动并加载自己的heritrix.jar
1. 免登陆
在webapp的web.xml中把安全过滤的后缀.Jsp改为其他后缀
2. 统一输出路径
在org.archive.crawler.admin这个包中有很多与操作界面相关的后台逻辑处理
找到CrawlJobHandler.java,寻找“jobdir”看看那些有“-”相关的代码,修改命名方式即可。
3. 默认order.xml
打开之前设定的jobs文件夹的工作,然后将order.xml复制到工程默认即可。
4. 用bat启动并加载自己的heritrix.jar
把工程打包成jar包,覆盖原例子程序的admin,conf。编写bat文件,搞定!
1 0
- Heritrix 工具化
- 【垂直搜索引擎搭建07】heritrix工具化
- 爬虫工具Heritrix初体验
- 爬虫工具Heritrix初体验
- 爬虫工具Heritrix初体验
- Heritrix
- Heritrix
- heritrix
- heritrix
- Heritrix
- heritrix
- heritrix
- Heritrix
- Heritrix 拓展Heritrix
- Heritrix 架构
- heritrix使用
- 启动heritrix
- heritrix 配置
- scala基本语法及注意点
- 《罗辑思维》笔记
- XML解析
- cocos2dx 消息推送
- Toast 的默认和自定义显示
- Heritrix 工具化
- Android 线程间通信机制(ITC详解)
- scala解析xml
- 【bzoj4352】 Tower
- scala指令
- 可见性和原子性——JAVA并发编程指南
- 解决vs2013网站发布时漏掉部分文件或者文件夹中的内容
- 侧滑面板(对viewGroup的自定义)
- vim下解决ctrl-s ctrl-q 假死问题