【垂直搜索引擎搭建02】heritrix启动

来源:互联网 发布:伊朗 知乎 编辑:程序博客网 时间:2024/05/17 04:12

一、dos命令下运行程序
(1)下载heritrix
(2)建立一个runheritrix.bat文件
runheritrix.bat文件代码:

%~d0cd %~dp0java -Xmx512m -Dheritrix.home=./heritrix -cp "./heritrix/heritrix-1.14.4.jar;./heritrix/lib/ant-1.6.2.jar;./heritrix/lib/bsh-2.0b4.jar;./heritrix/lib/commons-cli-1.0.jar;./heritrix/lib/commons-codec-1.3.jar;./heritrix/lib/commons-collections-3.1.jar;./heritrix/lib/commons-httpclient-3.1.jar;./heritrix/lib/commons-io-1.3.1.jar;./heritrix/lib/commons-lang-2.3.jar;./heritrix/lib/commons-logging-1.0.4.jar;./heritrix/lib/commons-net-2.0.jar;./heritrix/lib/commons-pool-1.3.jar;./heritrix/lib/dnsjava-2.0.3.jar;./heritrix/lib/fastutil-5.0.3-heritrix-subset-1.0.jar;./heritrix/lib/itext-1.2.0.jar;./heritrix/lib/jasper-compiler-tomcat-4.1.30.jar;./heritrix/lib/jasper-runtime-tomcat-4.1.30.jar;./heritrix/lib/javaswf-CVS-SNAPSHOT-1.jar;./heritrix/lib/je-3.3.82.jar;./heritrix/lib/jericho-html-2.6.jar;./heritrix/lib/jets3t-0.5.0.jar;./heritrix/lib/jetty-4.2.23.jar;./heritrix/lib/joda-time-1.6.jar;./heritrix/lib/junit-3.8.2.jar;./heritrix/lib/libidn-0.5.9.jar;./heritrix/lib/mg4j-1.0.1.jar;./heritrix/lib/poi-2.0-RC1-20031102.jar;./heritrix/lib/poi-scratchpad-2.0-RC1-20031102.jar;./heritrix/lib/servlet-tomcat-4.1.30.jar" org.archive.crawler.Heritrix

(3)直接运行runheritrix.bat文件
这里写图片描述

(4)在地址栏输入127.0.0.1:9090
这里写图片描述

成功登录WebUI后,初始界面如图所示:
这里写图片描述

选择“Jobs”链接,开始建立一个抓取任务
这里写图片描述

创建一个Job(Create New Job)有四种选择方式:
Based On Existing Job:
Based On a recovery:
Based On a profile:
With Default:
此处选择默认:
这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

二、ecplise下运行程序
配置完成后,运行步骤与dos下配置运行一致

0 0
原创粉丝点击