Heritrix扩展和定制的配置操作
来源:互联网 发布:utc行家怎么样知乎 编辑:程序博客网 时间:2024/04/29 04:41
sorry,对于前面发表的《MyEclipse下配置Heritrix的开发环境》,这个配置最初我只是检验到在MyEclipse可以运行,但是后来在 WebUI建立JOB,配置简单任务运行时,在进入module配置页,发现所有的配置可以删除,移动,但是不可以添加和修改,没有可选的下拉框。
最后网上查找原因是:配置文件找不到,应该在classpath标签页添加配置文件的路径,但是我最后没搞出来,最后想的办法是:
1、在MyEclipse下先把自己的类建好。如在src目录下建一个包my/postprocessor创建下面这个类:
package my.postprocessor; import java.util.logging.Logger; import org.archive.crawler.datamodel.CandidateURI; public class FrontierSchedulerForPconlineMobile extends FrontierScheduler { protected void schedule(CandidateURI caUri){
import org.archive.crawler.postprocessor.FrontierScheduler;
private static Logger LOGGER = Logger.getLogger(FrontierSchedulerForPconlineMobile.class.getName());
//构造函数
public FrontierSchedulerForPconlineMobile(String name) {
super(name);
}
//取得URL的字符串
String url = caUri.toString();
try{
//URL选择策略
if(url.indexOf("product.pconline.com.cn/mobile/") != -1
|| url.indexOf("img.pconline.com.cn") != -1
|| url.indexOf("robots.txt") != -1
|| url.indexOf("dns:") != -1){
getController().getFrontier().schedule(caUri);
}else{
return;
}
}catch(Exception e){
e.printStackTrace();
}finally{
}
}
}
2、然后解压heritrix-1.12.1下的heritrix-1.12.1.jar,如:c:/temp/
3、把myeclipse中heritrix项目下bin目录下的my整个文件夹拷贝到解压后的目录下如:c:/temp/
4、修改modules文件夹下的Processor.options文件,添加如下代码:
...
注意添加位置。
然后重新压缩。再替换掉原来的那个,后面的配置可根据另外一篇文章“Hertitrix配置篇"。
昨夜配好,今天可以抓取,不过总感觉这不是很佳的方法,如果有谁知道如何在IDE环境下配置,请告知,在此先谢了!
- Heritrix扩展和定制的配置操作
- 扩展和定制Heritrix之Extractor
- Heritrix配置及扩展
- heritrix的爬取定制
- Heritrix的配置和运行简单Job
- Heritrix安装和配置
- heritrix爬虫的定制--筛选格式
- 为Heritrix定制自己的QueueAssignmentPolicy
- 为Heritrix定制自己的QueueAssignmentPolicy
- 为Heritrix定制自己的QueueAssignmentPolicy
- heritrix安装配置和抓取
- Heritrix的启动和在eclipse下的配置
- COM的复用、扩展和定制
- 扩展和定制Heritrix2
- Heritrix的安装与配置
- Heritrix的安装与配置
- heritrix总结---定制FrontierScheduler
- eclipse中配置heritrix的图文过程----heritrix-1.14.3
- 用GDB调试程序
- Pku acm 2406 Power Strings数据结构题目解题报告(十八)----kmp算法
- 如何向 ActiveX 控件添加工具栏和工具提示
- 用CSS自定义博客链接字体及链接下划线的样式
- System Design with SystemC——学习笔记2
- Heritrix扩展和定制的配置操作
- 网卡知识(MAC 层 PHY层)
- 精通COBOL--16.4.1 伪会话程序的基本概念
- To be a Great Programmer, you must admit that you are a Terrible Programmer
- java似乎好难呀!
- 精通COBOL--16.4.2 RETURN到不同的程序
- 精通COBOL--16.4.3 RETURN到相同的程序
- Javascript中英文检测
- IReport中的如何使用变量进行合计