搭建Hadoop2.6+Hbase0.98.6+Nutch2.3环境
来源:互联网 发布:papi酱起诉被驳回知乎 编辑:程序博客网 时间:2024/06/06 02:51
**
编译Nutch并抓取网页
**
1、修改ivy/ivy.xml
<dependency org="org.apache.gora" name="gora-core" rev="0.6" conf="*->default"/><!---->//取消该注释<dependency org="org.apache.gora" name="gora-hbase" rev="0.6" conf="*->default" /><dependency org="org.apache.gora" name="gora-compiler-cli" rev="0.6" conf="*->default"/><dependency org="org.apache.gora" name="gora-compiler" rev="0.6" conf="*->default"/> 将hadoop1.2相关的去掉,然后添加:<dependency org="org.apache.hadoop" name="hadoop-client" rev="2.6.0" conf="*->default"/>
2、修改ivysetting.xml
编译时部分jar包不能下载,需要修改如下配置。
<property name="repository.apache.org" value="http://maven.restlet.org/" override="false"/>
3、修改nutch-site.xml
<configuration><property> <name>storage.data.store.class</name> <value>org.apache.gora.hbase.store.HBaseStore</value> <description>Default class for storing data</description> </property> <property> <name>http.agent.name</name> <value>My Nutch Spider</value> </property> <property> <name>io.serializations</name> <value>org.apache.hadoop.io.serializer.WritableSerialization</value> <description>A list of serialization classes that can be used for obtaining serializers and deserializers.</description></property></configuration>
4、修改gora.properties
gora.datastore.default=org.apache.gora.hbase.store.HBaseStore
5、编译
ant runtime
6、添加缺失jar包
拷贝commons-compress-1.9.jar,vorbis-java-core-0.6.jar,nekohtml-1.9.13.jar到/runtime/local/lib/下
7、创建seek文件
在/runtime/local/下创建urls文件夹,并创建seek.txt,内容为:
http://nutch.apache.org/
8、上传urls文件夹到HDFS
hadoop fs -copyFromLocal urls .
9、抓取网页
bin/crawl seed crawl 5
10、查看HBase数据库
scan 'crawl_webpage'
常见问题
1、**org.apache.avro.io.BinaryDecoder.ensureBounds(BinaryDecoder.java:473)问题
nutch-site.xml新增配置**
<property> <name>io.serializations</name> <value>org.apache.hadoop.io.serializer.WritableSerialization</value> <description>A list of serialization classes that can be used for obtaining serializers and deserializers.</description></property>
0 0
- 搭建Hadoop2.6+Hbase0.98.6+Nutch2.3环境
- 搭建Hadoop2.6+Hbase0.98.20+Nutch2.3.1+solr6.0.1环境
- Nutch2.3+Hbase0.94环境搭建
- nutch2.3 hadoop2.6.0 hbase0.98.8 分布式爬虫NoClassDefFoundError HBaseConfigurati
- Hadoop2.6.0 + Zookeeper3.4.6 + HBase0.98.9hadoop2环境搭建示例
- Hadoop2.5.2+Zookeeper3.4.6 + HBase0.98.8-hadoop2环境搭建
- hadoop2.7.1 nutch2.3 二次开发windows环境
- nutch2.3 hadoop2.6.0 hbase0.98.8 分布式爬虫NoClassDefFoundError: org/apache/hadoop/hbase/HBaseConfigurati
- hadoop2.6、hbase0.96、hive1.13环境搭建过程错误总结
- centos+hadoop2.5.1+hbase0.98集群环境搭建
- hadoop1.0.1+hbase0.94.14+nutch2.3爬虫
- Nutch2.2.1 开发环境搭建
- nutch2.3分布式搭建
- Nutch2.3+Hbase0.94+Solr4.10.3单机集成配置安装
- 编译安装nutch2.3和hbase0.98.8集成
- Hbase0.98.6-CDH5.3集群搭建
- [Nutch]Nutch2.3+Hadoop+HBase+Solr在Ubuntu环境搭建
- hadoop2.6分布式环境搭建
- Python读unicode文件
- [leetCode] Combination Sum
- 精度计算-大数阶乘
- Lrucache浅析
- setInterval引发的小问题
- 搭建Hadoop2.6+Hbase0.98.6+Nutch2.3环境
- icons(图标)网站
- [SSH_easyUI]细节3:dataGrid区域实现增删改查
- 使用Opencv
- Unreal Engine 4 AddOnScreenDebugMessage使用注意
- Java-----13、输入、输出
- 小小感悟
- 求两个字符串的最大公共子串【培训第三天】
- 6.12