2.搜索之路——Nutch搭建
来源:互联网 发布:淘宝买药流程 提交需求 编辑:程序博客网 时间:2024/06/07 19:11
2.搜索之路——Nutch搭建
1 官方连接和下载地址
https://nutch.apache.org/
https://nutch.apache.org/downloads.html
2 下载后解压
蛤蟆此处使用的是windows.
解压压缩包apache-nutch-2.3.1-src.gz
得到如下文件
build.xml
CHANGES.txt
conf
default.properties
docs
ivy
lib
LICENSE.txt
NOTICE.txt
src
将src文件夹中的文件夹复制到Eclipse的JAVA项目中刷新。
此时会出现红色的感叹号。
3 关于ANT
ant是目前java环境下最好用的打包部署工具,其采用xml的格式进行编写,功能非常强大。
下载地址:http://ant.apache.org/bindownload.cgi
可以在WINDWOS和LINUX下运行。
Windows下只要将ant的bin路径设置到PATH变量即可。
4 环境准备
JAVA
TOMCAT
NUTCH
4.1 下载
Tomcat下载
http://tomcat.apache.org/download-90.cgi
5 TOMCAT
设置JAVA环境变量:(PS环境变量根据所安装的JAVA版本会有差异请注意)
JAVA_HOME=/usr/local/jdk1.6.0_05
JAVA_BIN=$JAVA_HOME/bin
PATH=$PATH:$JAVA_BIN
CLASSPATH=$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export JAVA_HOME JAVA_BIN PATH CLASSPATH
下载完毕后,解压运行bin文件夹中的startup.bat
浏览器中输入:http://127.0.0.1:8080/ 访问正常,说明HTTP服务起来了。
Tomcat的网页主目录是/webapps/
Tomcat服务器端口是8080
6 Nutch
解压下载的Nutch包,解压
#tar –xvf apache-nutch-2.3.1.tar.gz
#cd apache-nutch-2.3.1/bin
执行
#./nutch
将nutch所在路径加入到PATH变量中。
6.1 设置NUTCH
创建urls文件夹
创建文件urls_crawl.txt
编辑加入入口网站。
bin/nutch crawl urls_crawl.txt -depth 2 -thread 2 -topN 2 >&craw1.log(在Nutch2.3.1后已可以)
-dir dirnames 设置保存所抓取网页的目录.
-depth depth 表明抓取网页的层次深度
-delay delay 表明访问不同主机的延时,单位为“秒”
-threads threads 表明需要启动的线程数
-topN 1000 表明只抓取每一层的前N个URL
- 2.搜索之路——Nutch搭建
- 1.搜索之路——Nutch与Lucene
- 5.搜索之路——solr与lucene和nutch关系
- 搭建搜索服务器-nutch初体验
- nutch + solr —— 搭建初探
- 情境搜索—搜索未来之路
- nutch 提高搜索精度
- nutch-1.2部署搜索
- nutch分类搜索
- nutch 提高搜索精度
- Nutch学习之Win7环境下在eclipse中搭建Nutch+solr+tomcat
- 使用 Hadoop,Nutch ,Hbase,Solr 搭建搜索引擎之Nutch2.2.1
- 利用nutch-1.2和Lucene 搭建自己的搜索平台, Apache Mahout 构建社会化推荐引擎
- 使用 Hadoop,Nutch ,Hbase,Solr 搭建搜索引擎抓取并测试搜索结果
- nutch分布式搭建
- nutch搜索引擎的搭建
- 从零开始搭建nutch搜索引擎
- nutch+hadoop环境搭建
- 解决Emacs无法输入中文的问题
- CodeForces-696C Please(数学题,快速幂取模,乘法逆元)
- 1.搜索之路——Nutch与Lucene
- C++ 值传递、指针传递、引用传递详解
- 体验标签的用法
- 2.搜索之路——Nutch搭建
- redis消息订阅和发布实例
- 机器学习-梯度下降算法-特征缩放和学习速率选取
- 3.搜索之路——solr
- Persistent and Transient Data Structures in Clojure
- nyoj 17 最长子序列相关问题
- 数据结构实验值链表五:单链表的拆分
- 图解Linux命令之--which命令
- caffe中各个层——解析