nutch 1.4成功在windows的配置和使用
来源:互联网 发布:c语言跑马灯程序 编辑:程序博客网 时间:2024/05/16 10:00
研究了一天半时间,终于把nutch demo在eclipse上跑起来了,搞得头都有点烧,在网上找了好多资料,不过没有一份很全的资料能将demo从头讲到尾的。
首先,想要在windows上运行nutch,而且版本还是1.4,确实很费劲,网上的资料都是1.3以前的版本。
资料准备:setup.exe 这个是在windows上模拟liunx用的一个终端,下载地址:http://www.cygwin.com/
nutch 1.4 下载地址:http://www.apache.org/dyn/closer.cgi/lucene/nutch/
ant 1.8 下载地址:http://ant.apache.org/
下载好nutch 后,将它存在E:/根目录下,其它目录也可以的,然后执行setup.exe安装cygwin,具体安装流程,就不多说了,那个网上挺多的。
下来,cmd->到nutch的根目录,执行ant,对整个工程进行编译,大概需要20分钟时间,去喝杯茶,放松一下吧。
编译完以后,要开eclipse,新建java project,使用nutch作为工程内容,然后next-> add libary 选择add class folder选中conf文件,完成就OK。
你在网上会发现很多解答提到crawl-urlfilter.txt,而在1.4是没有这个文件的,不过多了regex-urlfilter.txt,在这个里面加入+^http://([a-z0-9]*\.)*163\.com 这个代表只抓取www.163.com的内容,然后在nutch-site.xml
<property>
<name>http.agent.name</name>
<value>haininghacker</value>
</property>
<property>
<name>http.agent.url</name>
<value>www.163.com</value>
</property>
加入下面这段,现在还差最后一步,打开Run configurations.. 打开arguments选择,在program arguments里面输入urls -dir crawl -depth 5 -threads 4 -topN 10 然后在VM arguments输入-Xms64m -Xmx512m OK了,来享受抓取网页的成就感吧,running......
中间遇到很多问题,最后都一一攻克,如果这个过程还有疑问 weibo:http://weibo.com/haininghacker 欢迎一起讨论。
- nutch 1.4成功在windows的配置和使用
- nutch在windows下的配置
- nutch 1.4在windows下安装配置
- nutch-1.2和nutch-1.3的配置使用
- nutch-1.2和nutch-1.3的配置使用
- Windows下Nutch的配置
- Windows下Nutch的配置
- 配置nutch成功
- nutch安装、配置和使用
- Windows下Nutch的使用
- 【Nutch】Linux下Nutch分布式配置和使用
- nutch 0.9在Windows下的安装
- nutch 0.9在Windows下的安装
- nutch 1.0在Windows下的安装
- Windows下配置nutch
- Linux下Nutch分布式配置和使用
- Linux下Nutch分布式配置和使用
- Linux下Nutch分布式配置和使用
- ExtJs信息自动校验的方法
- DS1302显示85问题
- Linux中grep命令使用介绍
- java日志文件(log4j)使用
- 简单的一维数组介绍
- nutch 1.4成功在windows的配置和使用
- 47 仔细观察,别试图控制一切
- QImage与IplImage之间的转换
- 视频开发包derectx 9.0 SDK +VC++6.0 配置问题(vs2010 )
- Tslib Manual Calibrate On Android
- 利用securecrt在linux与windows之间传输文件
- Windows安装Warmserver phpMyAdmin无法打开"解
- Career-Cup-150 1.2
- php导出Mysql数据到Excel