Heritrix环境部署

来源:互联网 发布:php 生成pdf文件 编辑:程序博客网 时间:2024/05/28 19:23


Eclipse中配置使用Heritrix-1.14.4

1. 下载并解压heritrix-1.14.4-src.zipheritrix-1.14.4.zip

2. Eclipse中新建Java project,项目名定为heritrix_getstart

3. 将解压后的heritrix-1.14.4-src.zipsrc/java/下的com,org,st文件夹复制到工程的src目录下

4. src/conf下的modules,profiles,selftest文件夹和heritrix.propertries,jndi.properities文件复制到工程的src目录下

5. 解压heritrix-1.14.4-zipwebapps文件夹复制到工程根目录下

6. 如图:



7. 打开工程中的heritrix.propertries文件修改以下配置项

a) heritrix.version= 1.14.4,配置heritrix版本号

b) heritrix.jobsdir= jobs,配置爬取的内容的放置文件夹

c) heritrix.cmdline.admin=username:password,配置webUI登录的用户名和密码

d) heritrix.cmdline.port= 8888,配置webUI的登录端口

8. lib文件夹下的后有jar包加入到工程的classpath

9. 在工程中找到org.archive.crawler下的Heritrix.java运行

10.



11.打开浏览器,输入地址:http://localhost:8888输入用户名和密码就可以登录到后台


可能遇到的问题

thread-10 org.archive.util.ArchiveUtils.<clinit>() TLD list unavailable

解决方法:到heritrix.1.14.4.jar包中将文件org/archive/util/tlds-alpha-by-domain.txt复制到工程中的org/archive/util目录下即可


Eclipse中导入Heritrix,报错找不到类 sun.net.www.protocol.file.FileURLConnection

第一次用Heritrix,按照网上看到的用法导入Heritrix到Eclipse 。结果在org.archive.crawler.Heritrix 中报了这个错误。结果我在JDK自带的jar又可以找到这个类。

后来发现,原来这个sun包是受保护的包,默认只有sun公司的软件才能使用。Eclipse会报错,然后把对保护使用waring就可以了。


具体做法:

Windows -> Preferences -> Java -> Compiler -> Errors/Warnings-> Deprecated and trstricted API -> Forbidden reference (access rules): -> change to warning

0 0
原创粉丝点击