Nutch2.2.1 开发环境搭建
来源:互联网 发布:在淘宝上怎么注册网店 编辑:程序博客网 时间:2024/05/22 08:56
1. 环境准备
需要的环境有jdk1.7,Eclipse,SVN,ant,以及Eclipse下的两个插件subclipse和IvyDe,下载地http://subclipse.tigris.org/update_1.8.x和http://www.apache.org/dist/ant/ivyde/updatesite。
2.从SVN检出项目
地址https://svn.apache.org/repos/asf/nutch/tags/release-2.2.1
3.修改ivy目录下的ivysetting.xml
地址http://mirrors.ibiblio.org/maven2/
4.修改ivy.xml
修改ivy目录下的ivy.xml(增加mysql访问依赖java包),修改gora-core版本为0.2.1,并解除注释gora-sql和mysql-connector-java
5. 执行ANT
Cd 到目录执行Ant eclipse(直接在Eclipse下ant build貌似有问题)
6. 回到Eclipse中,设置工程编码为UTF-8
7.修改gora.properties
修改Conf文件夹下gora.properties配置mysql
#Default MySQL properties #
###############################
gora.datastore.default=org.apache.gora.sql.store.SqlStore
gora.datastore.autocreateschema=true
gora.sqlstore.jdbc.driver=com.mysql.jdbc.Driver
gora.sqlstore.jdbc.url=jdbc:mysql://localhost:3306/nutch?createDatabaseIfNotExist=true&useUnicode=true&characterEncoding=utf8&autoReconnect=true&zeroDateTimeBehavior=convertToNull
gora.sqlstore.jdbc.user=root
gora.sqlstore.jdbc.password=123456
8.新建URL文件夹
工程目录下新建文件夹urls,urls目录下新建一个文件url,里面输入要爬取的root_url,比如http://www.qq.com
9.修改Nutch-set.xml
<name>http.agent.name</name>
<value>YourNutchSpider</value>
</property>
<property>
<name>http.accept.language</name>
<value>ja-jp, en-us,en-gb,en,zh-cn,zh-tw;q=0.7,*;q=0.3</value>
<description>Value of the “Accept-Language” request header field.
This allows selecting non-English language as default one to retrieve.
It is a useful setting for search engines build for certain national group.</description>
</property>
<property>
<name>parser.character.encoding.default</name>
<value>utf-8</value>
<description>The character encoding to fall back to when no other information
is available</description>
</property>
<property>
<name>plugin.folders</name>
<value>src/plugin</value>
<description>Directories where nutch plugins are located. Each
element may be a relative or absolute path. If absolute, it is used
as is. If relative, it is searched for on the classpath.</description>
</property>
</pre><pre name="code" class="html"><!-- 为解决utf-8类中的空指针问题 -->
<property>
<span> </span><name>generate.batch.id</name>
<span> </span><value>*</value>
</property>
<property>
<name>storage.data.store.class</name>
<value>org.apache.gora.sql.store.SqlStore</value>
<description>The Gora DataStore class for storing and retrieving data.
Currently the following stores are available: ….</description>
</property>
private static void checkReturnValue(boolean rv, File p,
FsPermission permission
) throws IOException {
// if (!rv) {
// throw new IOException("Failed to set permissions of path: " + p +
// " to " +
// String.format("%04o", permission.toShort()));
// }
}
然后编译成java包替换我们工程build / lib下的hadoop-core-1.2.0.jar。
另外一种方法是找到FileUtil.java编译过后的class文件,替换掉jar包中相应的class文件FileUtil.clas和FileUtil$CygPathCommand.clas(用压缩软件打开就行)
附上已修改编译的Hadoop-core-1.2.0.jar文件,包含单独的FileUtil.class文件,链接 http://download.csdn.net/detail/cvj1991/7727299 (1个积分,有钱的捧个钱场)和直接下载链接 http://files.cnblogs.com/e-life/hadoop-core-1.2.0.rar
- Nutch2.2.1 开发环境搭建
- Nutch2.3.1源码开发环境搭建
- Windows7环境下MyEclipse+Nutch2.2.1+Mysql搭建
- Windows7环境下MyEclipse+Nutch2.2.1+Mysql搭建
- Wilco的Windows7环境下MyEclipse+Nutch2.2.1+Mysql搭建
- Windows环境下MyEclipse+Nutch2.2.1+Mysql搭建
- Nutch2.3+Hbase0.94环境搭建
- 搭建Hadoop2.6+Hbase0.98.6+Nutch2.3环境
- [Nutch]Nutch2.3+Hadoop+HBase+Solr在Ubuntu环境搭建
- 搭建Hadoop2.6+Hbase0.98.20+Nutch2.3.1+solr6.0.1环境
- 搜索引擎环境搭建nutch2.2.1+solr4.2+mysql5.7(附PHP solr拓展安装)
- nutch2.3分布式搭建
- 使用 Hadoop,Nutch ,Hbase,Solr 搭建搜索引擎之Nutch2.2.1
- Hadoop1.2.1开发环境搭建
- nutch2.2.1安装部署
- nutch2.2.1抓取流程
- nutch2.2.1安装部署
- Nutch2.2.1+Eclipse+Mysql
- 【STL源码剖析】序列式容器
- 文章标题
- 数据结构基础 算法复杂度分析(一) 概念篇
- 消息队列创建以及使用示例
- nyoj 891 找点【贪心】
- Nutch2.2.1 开发环境搭建
- 解决Sublime Text 2中文显示乱码的问题
- C语言-VS2010字体改变和行数显示
- Javascript-基础知识(1)
- 极简生活方式
- ARM Cortex-M4 指令列表
- 编程规范
- hdu 5327 Olympiad 多校4 01
- 【STL源码剖析】关联式容器