windows下安装nutch2.1
来源:互联网 发布:淘宝在国外 编辑:程序博客网 时间:2024/05/19 03:27
1.准备(一下版本为本人使用版本)
- 下载JDK1.7,建议下载安装版jdk-7u15-windows-x64.exe;(安装,并配置JAVA_HOME,PATH,CLASSPATH路径)
- 下载cygwin,下载安装版cygwin-setup.exe;
- 下载tomcat,apache-tomcat-7.0.37.exe;
- 下载nutch,apache-nutch-1.2-bin.zip;
2.cygmin安装与配置
双击cygwin-setup.exe安装,一般都选默认即可
注意:选择下载镜像时一定避免选择163.com的,因为这个是汉化的,以后会遇到兼容问题,要选美国服务器上的
下一步.....下一步....我的安装位置是D:\tool\cygwin和D:\tool\cygwinPackage
最后桌面上出现图标,能运行如下即可:
3.安装nutch
3.1.解压缩apache-nutch-1.2-bin.zip到D:\tool\cygwin\home下
3.2.打开cygwin,在cygwin环境下进入nutch-1.2目录下(cd /home/nutch-1.2),使用命令 bin/nutch进行测试,正常的情况下出现的结果是,说明nutch可运行了:
4. 配置nutch
4.1.在D:\tool\cygwin\home\nutch-1.2\下新建一个目录urls,在urls下建一个url.txt文件用以保存需要搜索的网站,在文件中输入http://www.163.com,在D:\tool\cygwin\home\nutch-1.2下新建一个目录logs,在logs目录下新建log1.log文件用以保存日志文件
4.2.打开D:\tool\cygwin\home\nutch-1.2\conf\nutch-site.xml,按以下示例输入
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>http.agent.name</name>
<value>mynutch</value>
<description>test
</description>
</property>
<property>
<name>http.agent.description</name>
<value>spider</value>
<description> spider
</description>
</property>
<property>
<name>http.agent.url</name>
<value>http://www.xxx.com </value>
<description>http://www.xxx.com
</description>
</property>
<property>
<name>http.agent.email</name>
<value>MyEmail</value>
<description>md.peter@163.com
</description>
</property>
</configuration>
4.3.打开文件D:\tool\cygwin\home\nutch-1.2\conf\crawl-urlfilter.txt文件,把MY.DOMAIN.NAME字符替换为myurl内的域名(比如我改成了“+^http://([a-z0-9]*/.)*163.com/”,其实更简单点,直接删除MY.DOMAIN.NAME这几个字就可以了,也就是说,只保存+^http://([a-z0-9]*/.)*这几个字就可以了,表示所有http的网站都同意爬行)。
4.4.运行爬虫,在Cygwin输入以下命令:
bin/nutch crawl urls/url.txt -dir crawled -depth 4 -threads 5 -topN 1000 >&logs/log1.log
这里-dir表示存储的目录,-depth表示网址爬的深度,最后是指明日志文件
运行结束后,你可以打开日志文件查看爬虫运行的详细过程,以及存储目录中的文件:
5.tomcat上运行nutch
5.1.把nutch-1.2.war拷贝到Tomcat//webapps/下面,重启tomcat,这步是为了使tomcat展开nutch-1.2.war,然后修改webapps/ nutch-1.2/WEB-INF/classes/nutch-site.xml文件如下:
<?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>searcher.dir</name>
<value>c:/cygwin/home/nutch-1.2/crawled</value>
</property>
</configuration>
5.2.为了支持中文的搜索,修改Tomcat/conf/server.xml。找到对应的地方修改成
connectionTimeout="20000" redirectPort="8443" URIEncoding="UTF-8" useBodyEncodingForURI="true"/>
5.3.在浏览器中输入http://localhost:8080/nutch-1.2/
- windows下安装nutch2.1
- ubuntu下安装nutch2.x
- linux下nutch2.3安装和编译
- Windows下使用Eclipse配置Nutch2图文详解
- Windows环境下MyEclipse+Nutch2.2.1+Mysql搭建
- nutch2.2.1安装部署
- nutch2.2 mysql 安装
- nutch2.2.1安装部署
- Centos 编译安装Nutch2.x 入坑指南(1)
- windows环境下nutch2.x 在eclipse中实现抓取数据存进mysql详细步骤
- 在eclipse中配置Nutch2.2.1, Windows环境下(Linux流程一样)
- nutch2.x在eclipse+windows环境下运行遇到的一些问题的解决方案
- Eclipse加载Nutch2.1
- 小试nutch2.1
- nutch2.1分布式抓取
- linux系统中tomcat8下安装solr 6.6 并与nutch2.2.1整合
- nutch2.1在windows平台上使用eclipsedebug 存储在mysql的搭建过程
- hadoop2.7.1 nutch2.3 二次开发windows环境
- jquery的bind跟on绑定事件的区别
- test
- DOM树
- platform_bus
- Top命令中各个种内存的含义
- windows下安装nutch2.1
- 九度OJ 1096 日期差值
- angular学习(三)—— Controller
- opencv2 直方图 calchist函数
- oracle 数据库,表空间的问题,临时表空间清理的问题
- SQL 数据类型
- 深度抠图--Deep Image Matting
- react-native 的生命周期,以及通信关系,转载
- 微信小程序