Nutch 使用总结
来源:互联网 发布:python xpath 编辑:程序博客网 时间:2024/06/06 01:22
Nutch 目录结构:
在bin文件夹下存放的是用于命令行运行的文件;Nutch的配置文件都放在了conf下,lib是一些运行所需要的jar文件;plugins下存放的相应的插件;在src文件夹中的是Nutch的所有源文件;webapps文件夹中存放的是web运行相关文件;nutch-0.9.war是Nutch所提供的基于Tomcat的应用程序包。
1.将起始 URL 集合注入到 Nutch 系统之中。
2.生成片段文件,其中包含了将要抓取的 URL 地址。
3.根据URL地址在互联网上抓取相应的内容。
4.解析所抓取到的网页,并分析其中的文本和数据。
5.根据新抓取的网页中的URL集合来更新起始URL集合,并再次进行抓取。
6.同时,对抓取到的网页内容建立索引,生成索引文件存放在系统之中。
(1)准备需要的软件列表
Cygwin (下载地址:http://www.cygwin.com/setup.exe)
Jdk(1.4.2以上版本,下载地址http://java.sun.com/javase/downloads/index.jsp)
Nutch(推荐使用0.9版本,下载地址http://www.apache.org/dyn/closer.cgi/lucene/nutch/)
Tomcat(下载地址http://tomcat.apache.org/)
(2)安装软件
1) Cygwin 打开安装程序Cygwin.exe后,在"Choose Installation Type"页选择 "Install from Internet"(如果你已经把全部安装包下载到本地,就可以选择"Install from local directory"选项)。然后点击"Next".
然后选择安装目录,其他可保持默认选项,点击"Next".
选择保存安装包的本地目录,点击"Next".
选择下载连接的类型,点击Next。
然后通过服务器先下在需要安装的包列表,改为install比较合适,默认为default安装不全
完成安装。
图文讲解
2) 安装JDK ,注意安装完成后需要在Windows的环境变量中加入JAVA_HOME=你的jdk的安装目录
3) 安装Tomcat。
4)把Nutch解压到本地目录,例如D:/nutch。启动Cygwin程序,Cygwin程序会启动一个模拟Unix/Linux的终端窗口,然后使用方式就和Unix的Shell一样了,Cygwin的根目录是/cygdriver,这个目录相当于Windows的“我的电脑”,然后进入Nutch的目录,例如:cd /cygdriver/d/nutch,然后运行bin/nutch命令,如果出现下面的Usage 信息,这样Nutch就安装完成了,非常简单。
注意cygwin路径的切换方法:
命令:cd d:/nutch
(3)使用Nutch
Nutch 的爬虫有两种方式
• 爬行企业内部网(Intranet crawling)。针对少数网站进行,用 crawl 命令。
• 爬行整个互联网。 使用低层的 inject, generate, fetch 和 updatedb 命令,具有更强的可控制性。
1) 添加需要爬行的内部网地址信息。
新建一个目录,写入一些网址信息,例如我们需要爬行csdn的内部网。
mkdir urls
echo http://www.csdn.net/ >urls/csdn
2) 然后修改 conf目录下的crawl-urlfilter.txt文件,这个文件中的正则表达式定义了那些文件可以被Nutch爬行,那些不可以被爬行。其中以“+”号开头的表示属于Nuch合法的Url连接,“-”号开头相反。我们需要修改文件中的
# accept hosts in MY.DOMAIN.NAME
在bin文件夹下存放的是用于命令行运行的文件;Nutch的配置文件都放在了conf下,lib是一些运行所需要的jar文件;plugins下存放的相应的插件;在src文件夹中的是Nutch的所有源文件;webapps文件夹中存放的是web运行相关文件;nutch-0.9.war是
1.
2.
3.
4.
5.
6.
(1)准备需要的软件列表
(2)安装软件
(3)使用Nutch
Nutch
•
•