Heritrix 1.14.3 运行环境配置

来源:互联网 发布:mac如何更改u盘格式 编辑:程序博客网 时间:2024/05/12 11:46

heritrix好像已经有3.0的版本了,但是sourceforge上还是给1.14.3的下载链接,3.0版本的弄不出来,目录结构改动太大了,连heritrix.properties都找不到了,还是用1.14.3来做爬虫吧。

1、下载heritrix-1.14.3-src.zip和heritrix-1.14.3.zip两个压缩包

2、在Eclipse下新建Java项目,取名Heritrix-1.14.3

3、复制heritrix-1.14.3-src包下面src/java文件夹下org、com、st三个文件夹到项目根目录

4、复制heritrix-1.14.3-src包下src下resources文件夹到项目根目录

5、复制heritrix-1.14.3-src包下conf到项目根目录

6、复制heritrix-1.14.3-src包下lib文件夹到项目根目录

7、复制heritrix-1.14.3包下webapps文件夹到项目根目录

8、修改项目conf下heritrix.properties文件
       @VERSION@ 改为 1.14.3
      heritrix.cmdline.admin = 改为 heritrix.cmdline.admin = username:password(用户名:密码)
      heritrix.cmdline.port = 改为 heritrix.cmdline.port = 8080

9、将lib目录下的所有.jar文件添加到classpath

10、/src/org.archive.crawler包下Heritrix.java会报错,原因是引用了sun.net.www.protocol.file.FileURLConnection这个受保护包下的类,设置eclipse对引用限制包只警告。

在preference->java->complier->errors/warning->deprecated and restricted API
把 Forbidden reference 的Error改成warning

11、在项目/src/org.archive.crawler包下Heritrix.java上点击右键选运行方式->运行配置->classpath->点击右边的ADVANCED->ADD FOLDER->选择根目录下的conf->RUN
控制台出现一下信息说明已成功.
12:18:12.703 EVENT Starting Jetty/4.2.23
12:18:12.937 EVENT Started WebApplicationContext[/,Heritrix Console]
12:18:13.062 EVENT Started SocketListener on 127.0.0.1:8090
12:18:13.062 EVENT Started org.mortbay.jetty.Server@179c285
Heritrix version: 1.14.3


这时你可以打开浏览器,输入http://localhost:8090或http://localhost:8080
输入刚才设的用户名和密码就可以登录Heritrix