heritrix,eclipse环境配置

来源:互联网 发布:淘宝购物网站 编辑:程序博客网 时间:2024/03/29 06:17

heritrix环境搭建
系统和开发环境:
windows xp
eclipse 3.1 ,myeclispe4.0注在eclispe3.2,myeclispe5.5上同样的方法也可以
heritrix-1.12.1-src.zip和heritrix-1.12.1.zip
1.非开发环境下运行heritrix
.将heritrix解压都本地硬盘
.修改/heritrix/conf/heritrix.properties中的内容
heritrix.cmdline.admin = ->heritrix.cmdline.admin = 用户名:密码 
heritrix.cmdline.port = 8080 ->heritrix.cmdline.port = 8080 指定端口
.将heritrix/conf/jmxremote.password.template拷贝到heritrix根目录下,并修改其中的

内容
monitorRole  @PASSWORD@ ->monitorRole  用户名
controlRole  @PASSWORD@ ->controlRole  用户名
将文件改名为jmxremote.password,同时将文件的安全属性改为只读,不该在后边启动的时

候也会提示修改。
使用命令行cmd进入到heritrix/bin下执行 heritrix --admin=用户名:密码
在浏览器输入
http://loclhost::端口号 即可
2.在eclipse中运行heritrix
在项目属性中将Java编译器一致性级别改为5.0
首先解压heritrix-1.12.1-src.zip和heritrix-1.12.1.zip两个包
.新建web project项目
.将heritrix-1.12.1-src下的/lib中的文件拷贝到项目中的/WEBROOT/WEB-INF/lib
.将/heritrix-1.12.1-src/src/java中的org,com,META-INF,ST拷贝到项目的src下边
.将/heritrix-1.12.1-src/src/conf下的modules,profiles,selftest拷贝到项目的src下边
.将/heritrix-1.12.1-src/src/conf下的jndi.properties和heritrix.properties拷贝到项

目的src下边,将heritrix-1.12.1-src/src/resources中的arcMetaheaderBody.xsl,

warcinfobody.xsl拷贝到src下
.将heritrix-1.12.1下的webapps拷贝到项目的根目录下
运行org.archive.crawler下的Heritrix 即可
在搭建过程遇到的问题:
1.package.jsp出错,order.xml报错,并非每次搭建时都出现,即使出现错误也不影响使用

(这些是在我搭建的实验中并非每次都出现错误,故无从进行深入研究)
2.有一个类中的变量不匹配,只要进行强制转换即可