将nutch-1.4加载到eclipse中
来源:互联网 发布:朝鲜 中国 关系 知乎 编辑:程序博客网 时间:2024/06/08 13:58
网络上关于nutch1.4的配置和使用很少,官方网站提供的方法我研究了半天特别麻烦,而且发现弄完后有的依赖包找不到,我决定放弃使用。将这两天关于nutch1.4配置的另一种方法整理一下 仅供参考!如有其它问题欢迎加1277140354一起交流学习!
1、 配置安装JDK省略。我用的是JDK1.6,JDK6官方下载地址:http://www.java.net/download/jdk6/6u10/promoted/b32/binaries/jdk-6u10-rc2-bin-b32-windows-i586-p-12_sep_2008.exeJDK1.5 ANT编译的时候会失败
2、 下载eclipse省略 地址:http://www.eclipse.org/downloads/
3、 Ant安装 使用最新的Apache Ant1.8.3 ApacheAnt 1.8.3 is now available for download as source or binary fromhttp://ant.apache.org/bindownload.cgi.
我个人下载的 解压后的目录为E:\Mysdk\apache-ant-1.8.3
配置Ant环境变量ANT_HOME 、PATH,在系统变量中,点击新建,变量名:ANT_HOME,变量值:
将%ANT_HOME%\bin; %ANT_HOME%\lib添加到环境变量的path中。
Cmd中测试ant指令结果如下说明ANT安装成功可以进行下一步、
4 、安装cygwin所以报错从官方网站下载最新的cygwin
官网地址http://www.cygwin.com/ 下载地址setup.exe
下载后安装
下一步 有错误提示直接忽略
不用选择 默认即可点击下一步
配置一下环境变量
添加 CYGWIN_HOME
在path中添加%CYGWIN_HOME%\bin
5、安装nutch1.4 官方网站http://nutch.apache.org/,下载地址http://apache.etoak.com/nutch/我选择的是apache-nutch-1.4-bin.zip 解压后目录为:E:\Mysdk\apache-nutch-1.4-bin
Cmd 到E:\Mysdk\apache-nutch-1.4-bin 执行ant
然后就耐心等待一下吧!
6导入eclipse中新建工程
点击下一步找到conf文件夹 选择Add folder ‘conf’to buid path 我将default output folder设置为Nutch/conf
点击finish
如果一切正常将没有错误
7修改nutch1.4配置信息
(1) 修改conf下nutch-default文件将plugin.folders的值由plugins修改为./src/plugin
(2) 按照官方网站说明在工程目录下建立urls目录在目录下建立txt文件,文件名字随意填写一个网址作为爬虫的目标网址
在conf下配置nutch-site.xml文件<configuration>中加入
<property>
<name>http.agent.name</name>
<value>My NutchSpider</value>
</property>
(3) 修改regex-urlfilter.txt将
# accept anything else
+.
处替换为
+^http://([a-z0-9]*\.)*163.com
表示只抓取www.163.com站内的内容
- 8 、经过以上配置基本上完成要求。下面看看运行的配置,在Package Explorer中右击工程选择Run asàruncon figurations 在java application下新建
设置main class为 org.apache.nutch.crawl.Crawl
- 在Arguments选项卡下Program Arguments 中填写
urls -dir crawl -depth 3 -topN 50
- 在VM arguments 中填写
-Dhadoop.log.dir=logs -Dhadoop.log.file=hadoop.log
单击run即可看到运行效果
我这在笔记本上运行出现了错误
在VM arguments 中加上 -Xms800m -Xmx800m
再次运行
。。。。。。。
- 将nutch-1.4加载到eclipse中
- Eclipse中加载Nutch遇到的问题
- 如何将nutch项目加载到MyEclipse中,生成一个web project
- 将Nutch添加到WebProject中,出现org.eclipse.jdt.internal.compiler.CompilationResult.getProblems()
- nutch 导入到eclipse
- Nutch 在window下如何配置到eclipse中
- nutch-1.4在eclipse中运行
- eclipse中导入nutch
- nutch导入到Eclipse总结
- Eclipse中编译Nutch-1.0
- 关于在Eclipse(myeclipse)中加载Nutch中遇到的问题
- 如何将数据加载到 ArrayList 中
- 将nutch源码配置到MyEclipse中出现java.lang.OutOfMemoryError: Java heap space错误
- openjdk源码加载到eclipse中
- 将MyEclipse项目导入到Eclipse中
- 将MyEclipse项目导入到Eclipse中
- 将Tomcat源码导入到Eclipse中
- 将eclipse项目转移到Androidstudio中
- android开发步步为营之5:ExpandableListView模拟QQ好友列表
- Eclipse中加载Nutch遇到的问题
- 用递归方法 实现 输出正整数和等于n的所有正整数和式
- table合并单元格(Jquery 插件)
- centos6.2更新yum源
- 将nutch-1.4加载到eclipse中
- UITextView
- IPhone-多视图
- 黑马程序员---Java基础之properties集合和编码解码
- spring多数据源配置
- 03 Android Gallery 和 ImageView 的组合使用
- C++拷贝构造函数(深拷贝,浅拷贝)参考一
- 解决Bootstrap模态对话框嵌套的一个bug
- hdoj 1078 FatMouse and Cheese(记忆化搜索)