搭建基于nutch1.0的搜索引擎
来源:互联网 发布:防火知多少教案反思 编辑:程序博客网 时间:2024/05/16 00:49
1、 Java jdk-1.6
1.1 下载安装
from: http://www.sun.com
安装目录:C:/Java/jdk1.6.0_03
1.2 修改环境变量
1.2 修改环境变量
打开我的电脑->属性->高级->环境变量
path=;C:/Program Files/Java/jdk1.6.0_14/bin;
创建:
JAVA_HOME=C:/Program Files/Java/jdk1.6.0_14/bin;
JAVA_HOME=C:/Program Files/Java/jdk1.6.0_14/bin;
CLASSPATH=C:/Program Files/Java/jdk1.6.0_14/bin/lib/dt.jar;C:/Program Files/Java/jdk1.6.0_14/bin/lib/tools.jar
1.3 测试
1.3 测试
在开始菜单-》运行->cmd->java -version
java -version
java -version
如出现版本信息则安装成功!
2、tomcat-6.0
2、tomcat-6.0
2.1 下载
from: http://tomcat.apache.org/
2.2 解压到C盘目录并改名
from: http://tomcat.apache.org/
2.2 解压到C盘目录并改名
安装目录:C:/tomcat6
2.3 修改配置
conf/server.xml
2.3 修改配置
conf/server.xml
QUOTE:
<!-- Define a non-SSL HTTP/1.1 Connector on port 8080 -->
<Connector port="8080" maxHttpHeaderSize="8192"
maxThreads="150" minSpareThreads="25" maxSpareThreads="75"
enableLookups="false" redirectPort="8443" acceptCount="100"
c disableUploadTimeout="true"
URIEncoding="UTF-8" useBodyEncodingForURI="true" protocol="http/1.0" />
<Connector port="8080" maxHttpHeaderSize="8192"
maxThreads="150" minSpareThreads="25" maxSpareThreads="75"
enableLookups="false" redirectPort="8443" acceptCount="100"
c disableUploadTimeout="true"
URIEncoding="UTF-8" useBodyEncodingForURI="true" protocol="http/1.0" />
默认服务端口为8080,若有冲突(如Apache),则可通过此配置文件更改端口(蓝色)如果配置后nutch出现中文乱码问题,则增加编码配置(红色)
2.4 启动服务
startup
测试:http://localhost:8080/
2.4 启动服务
startup
测试:http://localhost:8080/
3、安装Cygwin
from:http://www.cygwin.cn/
由于运行Nutch自带的脚本命令需要Linux的环境,所以必须首先安装Cygwin来模拟这种环境
安装步骤请看:http://blog.csdn.net/magichuo/archive/2009/07/30/4393070.aspx
4、 nutch-1.0
4.1 下载 http://www.apache.org/dyn/closer.cgi/lucene/nutch/
4.2 解压后到C盘根目录
4、 nutch-1.0
4.1 下载 http://www.apache.org/dyn/closer.cgi/lucene/nutch/
4.2 解压后到C盘根目录
C:/nutch-1.0
创建存放所要爬取网站的urls文件
在nutch/bin 目录下创建一个urls目录,然后在目录里面新建一个文件,文件名为 “urls.txt”,内容为你要爬行的网站如:http://www.cygwin.cn/或者 http://133.40.188.130:8880/klms
4.3 指定爬虫规则
修改 conf/crawl-urlfilter.txt
QUOTE:
# accept hosts in MY.DOMAIN.NAME
#+^http://([a-z0-9]*/.)*MY.DOMAIN.NAME/
#+^http://([a-z0-9]*/.)*MY.DOMAIN.NAME/
4.4 修改 conf/nutch-site.xml
QUOTE:
<configuration>
<property>
<name>http.agent.name</name>
<value>my nutch agent</value>
</property>
<property>
<name>http.agent.version</name>
<value>1.0</value>
</property>
</configuration>
<property>
<name>http.agent.name</name>
<value>my nutch agent</value>
</property>
<property>
<name>http.agent.version</name>
<value>1.0</value>
</property>
</configuration>
如果没有配置此agent,爬取时会出现 Agent name not configured! 的错误。
4.5 开始爬取
打开Cygwin,
在命令行窗口中输入:
cd /cygdrive/c/nutch-1.0/bin
执行命令:
cd /cygdrive/c/nutch-1.0/bin
执行命令:
sh nutch crawl urls -dir crawled -depth 3 -threads 4 在这里
dir指定抓取内容所存放的目录,depth表示以要抓取网站顶级网址为起点的爬行深度,threads指定并发的线程数。
4.6 部署web前端
将 nutch-1.0.war 拷贝到webapps目录下
通过浏览器访问 http://localhost:8080/nutch-1.0/ 后,war包自解压。(可以通过winrar或zip7解压)
4.7 修改nutch的web配置
c:/tomcat6/webapps/nutch-1.0/WEB-INF/classes/nutch-site.xml
将内容更改为索引生成的目录。
QUOTE:
4.6 部署web前端
将 nutch-1.0.war 拷贝到webapps目录下
通过浏览器访问 http://localhost:8080/nutch-1.0/ 后,war包自解压。(可以通过winrar或zip7解压)
4.7 修改nutch的web配置
c:/tomcat6/webapps/nutch-1.0/WEB-INF/classes/nutch-site.xml
将内容更改为索引生成的目录。
QUOTE:
<nutch-conf>
<property>
<name>searcher.dir</name>
<value>c:/nutch-1.0/crawled</value>
</property>
</nutch-conf>
<property>
<name>searcher.dir</name>
<value>c:/nutch-1.0/crawled</value>
</property>
</nutch-conf>
重启tomcat服务器
IE中输入http://localhost:8080/nutch-1.0/
你就可以看到自己的搜索引擎了
IE中输入http://localhost:8080/nutch-1.0/
你就可以看到自己的搜索引擎了
- 搭建基于nutch1.0的搜索引擎
- 自己动手搭建搜索引擎(基于Nutch1.0) lucene 很简单,已成功
- 搭建基于nutch的搜索引擎
- Windows下开源搜索引擎Nutch1.2的安装
- Nutch1.0开源搜索引擎与Paoding在e…
- Nutch1.2搜索引擎使用详解
- 利用Coreseek搭建基于MYSQL和PHP的搜索引擎
- windows下nutch1.0环境搭建及测试
- Nutch1.2+Tomcat7.0+Cygwin网页爬虫工具搭建
- Nutch1.0的配置与运行
- nutch搜索引擎的搭建
- Nutch1.0开源搜索引擎与Paoding在eclipse中用plugin方式集成(终极篇)
- 搜索引擎Nutch1.4+solr1.4整合(成功)
- Nutch1.2+tomcat7windows环境搭建
- 基于Linux的搜索引擎实现
- 想做个基于lucene的搜索引擎
- 基于Linux的搜索引擎实现
- 基于Java的搜索引擎:Compass
- Cocoa的单态(singleton)设计模式
- 我CSDN的第一篇博文
- ROSE 2003 提示 java.lang.ClassNotFoundException
- IC一卡通开发的一点笔记
- 最新手机开发技术---Android系统开发免费预科班
- 搭建基于nutch1.0的搜索引擎
- Selenium简介(一)--总体介绍
- 《XML Lesson》
- 外文网站
- 文件改名批处理
- 要想35岁以前成功 必备9大好习惯
- 【Dijkstra】算法实验题12.1 自动应答器
- 软件项目管理的圣经--人月神话(下)
- [DirectShow] 016 - Pull Model