nutch搜索引擎的搭建以及配置
来源:互联网 发布:c语言数组实验报告 编辑:程序博客网 时间:2024/04/29 23:12
实验环境:
软件环境
nutchg简介
Nutch的爬虫抓取网页有两种方式,一种方式是IntranetCrawling,针对的是企业内部网或少量网站,使用的是crawl命令;另一种方式是Whole-web crawling,针对的是整个互联网,使用inject、generate、fetch和updatedb等更底层的命令.本文档介绍IntranetCrawling的基本使用方法.
安装jdk
# vi /etc/profile
JAVA_HOME=/usr/java/jdk1.6.0_21
export JAVA_HOME
PATH=$JAVA_HOME/bin:$PATH
export PATH
CLASSPATH=$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:$CLASSPATH
export CLASSPATH
# source /etc/profile
# java -version
安装tomcat
#
#
#
安装nutch
#
#
#
#
设置Nutch的环境变量
增加NUTCH_JAVA_HOME变量,并将其值设为JDK的安装目录
NUTCH_JAVA_HOME=/usr/java/jdk1.6.0_21
export NUTCH_JAVA_HOME
Nutch抓取网站页面前的准备工作
在Nutch的安装目录中建立一个名为url.txt的文本文件,文件中写入要抓取网站的顶级网址,即要抓取的起始页.
这里写入国内比较有名的站点
编辑conf/crawl-urlfilter.txt文件,修改MY.DOMAIN.NAME部分:
+^http://([a-z0-9]*\.)*com/
解决搜索动态内容的问题
按照默认的是不能抓取到的.可以在上面2个文件中都修改成:
# skip URLs containing certaincharacters as probable queries, etc.
另外增加允许的一行
编辑conf/nutch-site.xml文件,在configuration中间加入一下内容
运行Crawl命令抓取网站内容
/usr/local/nutch/bin/nutch crawl/usr/local/nutch/url.txt
等待大约一段时间后,程序运行结束.会发现在nutch目录下被创建了一个名为sxit的文件夹,同时还生成一个名为crawl.log的日志文件.利用这一日志文件,我们可以分析可能遇到的任何错误.另外,在上述命令的参数中,dir指定抓取内容所存放的目录,depth表示以要抓取网站顶级网址为起点的爬行深度,threads指定并发的线程数.
使用Tomcat进行搜索测试
将nutch目录的nutch-1.0.war复制到tomcat\webapps下,这里需要启动下tomcat,然后就在webapps下面生成一个nutch-1.0的文件夹,打开 nutch-1.0\WEB-INF\classes下的nutch-site.xml文件,
//由于这里是最新的版本,原来这个配置文件的内容都删掉,添加如下的内容
searcher.dir
/usr/local/nutch/sxit
在文本框中输入关键字,就可以进行搜索了.不过用户在使用时会发现,对于英文单词的搜索一切正常,而当要搜索中文词语时会出现乱码.其实这个问题是Tomcat设置的问题,解决办法是修改tomcat\conf下的server.xml文件,将其中的Connector部分改成如下形式即可:
nutch的分页功能
# cd /usr/local/apache-tomcat-6.0.29/webapps/nutch-1.0
# vi search.jsp
查找int hitsPerSite把=后面的值改成0,
然后在这个jsp文件的末尾增加如下的代码:
- nutch搜索引擎的搭建以及配置
- nutch搜索引擎的搭建
- 搭建基于nutch的搜索引擎
- windows上搭建自己的搜索引擎nutch
- 从零开始搭建nutch搜索引擎
- 使用nutch搭建类似百度/谷歌的搜索引擎
- Linux下用nutch搭建搜索引擎
- 利用nutch、hbase和solr搭建搜索引擎
- Nutch+MongoDB+ElasticSearch+Kibana 搭建搜索引擎
- Nutch+MongoDB+ElasticSearch+Kibana 搭建搜索引擎
- Nutch 的集群式搜索引擎
- 搜索引擎 Nutch
- Nutch的配置以及动态网站的抓取
- 基于Java的搜索引擎Nutch中文搜索技术研究
- 开发基于 Nutch 的集群式搜索引擎
- 基于Java的搜索引擎Nutch中文搜索技术
- 基于Java的搜索引擎Nutch中文搜索技术研究
- 架设自己的搜索引擎,Nutch安装手记
- Tomcat部署openejb
- 下拉列表<s:select【转】
- StringBuilder与StringBuffer的区…
- 【小龙女陈妍希古装Win7主题】
- nutch工程源码导入Eclipse过…
- nutch搜索引擎的搭建以及配置
- cygwin一闪而过 的处理(小经验)
- Kombu Exchange
- Windows下开源搜索引擎Nutch…
- nutch项目中到hadoop到mapreduce
- 如何把word文档按照单元格放进excel中
- 利用Nutch和IKanalyzer构造中文分…
- [Java]读取文件方法大全
- PowerDesigner15官方正式版+…