在Eclipse中的配置Heritrix

来源:互联网 发布:上海锐战网络李涵佳 编辑:程序博客网 时间:2024/04/27 06:51

网上缺少这方面的文章,即使有也大都行不通,下面列举本人的真实操作以供参考。

前提工作:下载2各包 heritrix-1.12.1.zip 和heritrix-1.12.1-src.zip

创建java project

解压heritrix-1.12.1.zip  将lib目录和webapps目录复制到工程主目录下,将lib目录下的所有jar添加到工程的build path中。

解压heritrix-1.12.1.jar  将下面所有文件复制到工程主目录下,删除org目录和st目录

解压heritrix-1.12.1-src.zip  将src / java 下的org目录和st目录复制到工程主目录下

将webapps 下面的admin目录和selftest目录复制到工程的webapps目录下

运行org.archive.crawler.Heritrix类,那么Heritrix便启动了

至于怎么开始任务抓取网页,网上都有我就不赘述了。

原创粉丝点击