搭建基于nutch1.0的搜索引擎

来源：互联网发布：防火知多少教案反思编辑：程序博客网时间：2024/05/16 00:49

1、 Java jdk-1.6

1.1 下载安装

from: http://www.sun.com

安装目录：C:/Java/jdk1.6.0_03
1.2 修改环境变量

打开我的电脑->属性->高级->环境变量

path=;C:/Program Files/Java/jdk1.6.0_14/bin;

创建：
JAVA_HOME=C:/Program Files/Java/jdk1.6.0_14/bin;

CLASSPATH＝C:/Program Files/Java/jdk1.6.0_14/bin/lib/dt.jar；C:/Program Files/Java/jdk1.6.0_14/bin/lib/tools.jar
1.3 测试

在开始菜单-》运行->cmd->java -version
java -version

如出现版本信息则安装成功！

2、tomcat-6.0

2.1 下载
from: http://tomcat.apache.org/

2.2 解压到C盘目录并改名

安装目录：C:/tomcat6

2.3 修改配置
conf/server.xml

QUOTE:

<Connector port="8080" maxHttpHeaderSize="8192"
         maxThreads="150" minSpareThreads="25" maxSpareThreads="75"
            enableLookups="false" redirectPort="8443" acceptCount="100"
            c disableUploadTimeout="true"
            URIEncoding="UTF-8" useBodyEncodingForURI="true" protocol="http/1.0" />

默认服务端口为8080，若有冲突（如Apache），则可通过此配置文件更改端口(蓝色)如果配置后nutch出现中文乱码问题，则增加编码配置(红色)

2.4 启动服务
startup

测试：http://localhost:8080/

3、安装Cygwin

from:http://www.cygwin.cn/

由于运行Nutch自带的脚本命令需要Linux的环境，所以必须首先安装Cygwin来模拟这种环境

安装步骤请看：http://blog.csdn.net/magichuo/archive/2009/07/30/4393070.aspx
4、 nutch-1.0
4.1 下载 http://www.apache.org/dyn/closer.cgi/lucene/nutch/

4.2 解压后到C盘根目录

C:/nutch-1.0

创建存放所要爬取网站的urls文件

在nutch/bin 目录下创建一个urls目录，然后在目录里面新建一个文件，文件名为 “urls.txt”,内容为你要爬行的网站如：http://www.cygwin.cn/或者 http://133.40.188.130:8880/klms

4.3 指定爬虫规则
修改 conf/crawl-urlfilter.txt

QUOTE:

# accept hosts in MY.DOMAIN.NAME
#+^http://([a-z0-9]*/.)*MY.DOMAIN.NAME/

4.4 修改 conf/nutch-site.xml

QUOTE:

<configuration>
      <property>
            <name>http.agent.name</name>
            <value>my nutch agent</value>
      </property>
      <property>
            <name>http.agent.version</name>
            <value>1.0</value>
      </property>
</configuration>

如果没有配置此agent，爬取时会出现 Agent name not configured! 的错误。

4.5 开始爬取

打开Cygwin,

在命令行窗口中输入：
　　cd /cygdrive/c/nutch-1.0/bin
执行命令：

sh nutch crawl urls -dir crawled -depth 3 -threads 4 在这里

dir指定抓取内容所存放的目录，depth表示以要抓取网站顶级网址为起点的爬行深度，threads指定并发的线程数。

4.6 部署web前端
将 nutch-1.0.war 拷贝到webapps目录下
通过浏览器访问 http://localhost:8080/nutch-1.0/ 后，war包自解压。(可以通过winrar或zip7解压)
4.7 修改nutch的web配置
c:/tomcat6/webapps/nutch-1.0/WEB-INF/classes/nutch-site.xml
将内容更改为索引生成的目录。
QUOTE:

<nutch-conf>
      <property>
            <name>searcher.dir</name>
            <value>c:/nutch-1.0/crawled</value>
      </property>
</nutch-conf>

重启tomcat服务器

       IE中输入http://localhost:8080/nutch-1.0/

       你就可以看到自己的搜索引擎了