nutch在windows下的配置

来源:互联网 发布:网络系统安全课程 编辑:程序博客网 时间:2024/05/01 00:14

nutch0.9+Tomcat6在windows下的配置,还需要下载一个Cygwin类UNIX模拟环境,当然在linux环境下可以跳过这个。

在nutch-0.9目录下新建一个weburls.txt,用于存放入口网页地址,如http://www.view.sdu.edu.cn/。然后在nutch-0.9/conf/crawl-urlfilter.txt文件里修改以下地方:在

# accept hosts in MY.DOMAIN.NAME
#+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/

后面添加+^http://www.view.sdu.edu.cn/这一行。

在nutch-0.9/conf/nutch-site.xml文件里的配置里添加以下:

<property>
<name>http.agent.name</name>
<value>*</value>
<description>localweb.com</description>
</property>
<property>
<name>searcher.dir</name>
<value>D:\nutch\nutch-0.9\localweb</value>
<description></description>
</property>

然后打开Cygwin,到nutch-0.9的目录下,敲入命令行 bin/nutch crawl weburls.txt -dir localweb -depth 2 -topN 100 -threads 2,然后回车等待下载。下载完成后,将nutch-0.9目录下的nutch-0.9.war文件复制到tomcat目录下的webapps目录下并解压,解压过程中选择全部替换。然后在解压后的webapps/nutch-0.9/WEB-INF/classes目录下的nutch-site.xml文件里进行修改,将以下内容添加到configuration属性中:

<property>
<name>searcher.dir</name>
<value>D:\nutch\nutch-0.9\localweb</value>
<description></description>
</property>


然后打开浏览器输入http://127.0.0.1:8080/nutch-0.9出现nutch界面:

测试查询,输入 山东大学齐鲁医院 ,出现以下界面:

nutch搜索引擎初步完成。注意上述步骤的操作顺序,有些顺序十分严格,本实验感谢董小五程序媛鼓励师的耐心指导。

0 0