信息检索大作业:在Windows XP上搭建 nutch-0.9 搜索引擎环境
来源:互联网 发布:婚纱照片制作软件 编辑:程序博客网 时间:2024/05/04 15:31
零、软件资源
1 cygwin
2 jdk1.6.0_10
3 nutch-0.9
4 Tomcat
自行寻找下载
http://download.csdn.net/detail/handyhuang/4195140
一、 实验目的
1 基本环境建立:在windows XP搭建一个独立完整的nutch的测试平台,此平台搭建完毕可以直接拷贝到任意windows XP电脑上使用,免去重复搭建的问题。
2 抓取行业信息:抓取DVBCN 网站行业内容,以此为数据库,测试nutch搜索引擎。
3 搜索测试:通过tomcat搭建web平台,实现使用nutch搜素引擎进行垂直搜索。
4 掌握nutch的搭建,使用。
二、 实验过程
目标1:基本环境建立
完成目标1,首先要解决环境变量设置问题,主要技术思路采用bat批处理进行CMD终端的临时环境变量设置,CMD终端关闭后系统的环境变量自动恢复,不影响电脑。主要步骤如下:
第一步 在windows的任意盘根目录下(比如D盘)创建nutch-10R0585目录,作为nutch平台的根目录,然后将cygwin,jdk1.6.0_10,nutch-0.9,Tomcat都安装或者解压到nutch-10R0585目录。nutch的平台所需软件就已经齐全了。
为了减小cygwin体积,我进行了剪裁,只保留bin下的少数exe文件,只要能保证nutchshell脚本可以正确执行即可。
第二步设置nutch运行环境的临时环境变量,创建NUTCH.bat批处理脚本,内容如下:
主要作用就是当用户用鼠标双击NUTCH.bat后,进入CMD终端,并且调用env_set.bat批处理文件,env_set.bat的主要作用是设置临时环境变量,内容如下:
第三步 环境验证,主要通过以下几个命令进行验证,截图如下:
Java版本号应该与nutch-10R0585下的jdk里的java版本号一致。以上都没问题,那么可以完成第二个目标。
目标2:抓取行业信息
第一步 在\nutch-10R0585\nutch-0.9\bin目录下建立urls目录,在\nutch-10R0585\nutch-0.9\bin\urls目录下创建nutch.txt文本文件, 内容如下:
可能有些版本原因,输入一个网址会有问题,因此可以随便写第二个网址在文件里
第二步打开\nutch-10R0585\nutch-0.9\conf\crawl-urlfilter.txt文件 找到^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/ 这一行 注销此行,输入要抓取的网站domain:
并保存。
第三步 打开\nutch-10R0585\nutch-0.9\conf \conf\nutch-site.xml文件,将
文本内容覆盖原有的
<configuration>
</configuration>
并且保存
第四步 聚焦到我们在基本环境建立时打开的终端上面,此时我们应该在CMD终端的\nutch-10R0585\nutch-0.9\bin目录,如果不确定,
cd %NUTCHHOME%/nutch-0.9/bin
sh nutch crawl urls -dir DVBCN -depth 4-threads 5 -topN 500 > dvbcn.log
这里-dir表示存储的目录,-depth表示网址爬的深度,最后是指明日志文件
运行结束后,你可以打开日志文件查看爬虫运行的详细过程。同时在\nutch-10R0585\nutch-0.9\bin目录下生成了抓取网页的数据库,在DVBCN目录下。那么nutch要检索的内容目录就是D:\nutch-10R0585\nutch-0.9\bin\DVBCN。
至此我已经完成DVBCN行业网站的信息抓取目标,下面就是实现通过web方式使用nutch搜素引擎进行垂直搜索了。
目标3:搜索测试
第一步 将\nutch-10R0585\nutch-0.9\nutch-0.9目录的nutch-0.9.war拷贝到\nutch-10R0585\Tomcat\webapps目录下
第二步 打开\nutch-10R0585\Tomcat\conf\server.xml文件,将
<Connector port="80"maxHttpHeaderSize="8192"
maxThreads="150"minSpareThreads="25" maxSpareThreads="75"
enableLookups="false"redirectPort="8443" acceptCount="100"
connectionTimeout="20000"
disableUploadTimeout="true"
URIEncoding="UTF-8"useBodyEncodingForURI="true"/>
添加到文件,并保存。
第三步 cd %NUTCHHOME%/Tomcat/bin,通过startup.bat 启动 tomcat服务,也不可以通过shutdown.bat 关闭 tomcat服务。
启动tomcat服务后,会在\nutch-10R0585\Tomcat\webapps生成nutch-0.9目录,打开\nutch-10R0585\Tomcat\webapps\nutch-0.9\WEB-INF\classes\nutch-site.xml
将原有
<configuration>
</configuration>
替换
保存
第四步 打开\nutch-10R0585\Tomcat\webapps\nutch-0.9\search.jsp
将 151行的<jsp:includepage="<%= language + "/include/header.html"%>"/>
修改:<jsp:include page='<%= language +"/include/header.html"%>'/>
避免发生web搜索出现HTTP Status 500 -
第五步 打开浏览器,在地址栏输入http://127.0.0.1/nutch-0.9/,进行相关搜索测试
截图如下:
- 信息检索大作业:在Windows XP上搭建 nutch-0.9 搜索引擎环境
- windows XP下nutch-1.0搜索引擎环境搭建
- scrapy+Lucene搭建小型搜索引擎(现代信息检索大作业)
- windows上搭建自己的搜索引擎nutch
- 在 windows xp 上搭建 JDEE
- nutch环境配置在windows系统上(借助Cygwin)
- 信息检索-搜索引擎的搭建(Lucene)
- 信息检索-搜索引擎的搭建(Lucene)
- nutch搜索引擎的搭建
- 从零开始搭建nutch搜索引擎
- 搭建Android开发环境(windows xp上)
- 如何在windows vista下搭建lucene搜索引擎环境
- [Nutch]Nutch+Eclipse+Tomcat+Solr+Cygwin搭建Windows开发环境
- nutch搜索引擎windows版本
- windows下部署cygwin,模拟linux环境安装nutch搜索引擎
- 在windows上搭建linux开发环境
- 在Windows上搭建Android开发环境
- 在Windows上搭建Android开发环境
- 一个不错的资料下载点----51CTO技术资料
- 【Error大杂烩】Cannot recover key
- IIS 依存服务或组无法启动
- Application Loader 使用图解教程
- 什么地方必须用reference而不能用pointer
- 信息检索大作业:在Windows XP上搭建 nutch-0.9 搜索引擎环境
- android利用http请求xml
- 变量的初始化(一)
- 网站
- I18N by Spring
- ubuntu 切换root用户
- 详解Android中AsyncTask的使用
- 从止车脚Adam Flint
- 接口内存模型