[Nutch]Nutch2.3+Hadoop+HBase+Solr在Ubuntu环境搭建
来源:互联网 发布:南通数控编程培训 编辑:程序博客网 时间:2024/04/26 11:05
上一篇博文介绍了在Windows 10系统下用Cygwin搭建Nutch开发环境,本文将介绍在Ubuntu下Nutch2.3的开发环境的搭建。
1. 需要的软件及其版本
- Ubuntu 15.04
- hadoop 1.2.1
- hbase 0.94.27
- nutch 2.3
- solr 4.9.1
2. 系统环境准备
2.1 安装Ubuntu操作系统
基本要求,网上也有很多,自行安装,有问题可以留言。
2.2 单独新建一个kandy用户
useradd kandy
2.3 设置密码
passwd kandy
2.4 开启管理员权限
vi /etc/sudoers
增加一行:
hadoop ALL=(ALL) ALL
2.5 确保配置localhost地址映射到127.0.0.1
vi /etc/hosts
增加如下内容:
127.0.0.1 localhost
2.6 设置无密码登陆,至ssh localhost可以实现无密码登陆
2.6.1 产生密钥
使用如下命令:
ssh-keygen -t rsa
全部使用默认选项:
2.6.2 复制密钥
使用如下命令:
cp .ssh/id_rsa.pub .ssh/authorized_keys
2.6.3 验证
输入如下命令:
ssh localhost
2.7 确保已经安装JDK,并配置好JAVA_HOME环境变量,如:
export JAVA_HOME=/usr/lib/jvm/java-8-oracle
3 安装hadoop 1.2.1
3.1 下载hadoop-1.2.1.tar.gz并解压到/usr/local/hadoop,修改目录权限:
sudo chmod 777 -R hadoop
3.2 创建/data/hadoop-data目录
3.3 修改./conf/core-site.xml配置如下:
<configuration> <property> <name>hadoop.tmp.dir</name> <value>/data/hadoop-data/tmp</value> <description>Abase for other temporary directories.</description> </property> <property> <name>fs.default.name</name> <value>hdfs://localhost:9000</value> </property></configuration>
3.4 修改conf/hadoop-env.sh中的JAVA_HOME配置如下:
export JAVA_HOME=/usr/lib/jvm/java-8-oracle
3.5 修改./conf/hdfs-site.xml配置如下:
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property></configuration>
3.6 修改./conf/mapred-site.xml配置如下:
<configuration> <property> <name>mapred.job.tracker</name> <value>localhost:9001</value> </property></configuration>
3.7 配置环境变量
export HADOOP_PREFIX=/usr/local/hadoop/export PATH=${HADOOP_PREFIX}/bin/:${PATH}
3.8 格式化namenode
hadoop namenode -format
3.9 启动hadoop
start-all.sh
3.10 检查hadoop是否正确启动
hadoop fs -ls /
3.11 tasktracker状态页面
http://localhost:50060/tasktracker.jsp
3.12 jobtracker状态页面
http://localhost:50030/jobtracker.jsp
3.13 datanode状态页面
http://localhost:50075
4 安装hbase 0.94.27
4.1 下载hbase-0.94.27.tar.gz并解压到/usr/local/hbase,修改目录权限
sudo chmod 777 -R hbase
4.2 创建目录/data/hbase/zookeeper/
4.3 修改./conf/hbase-env.sh中的JAVA_HOME配置如下
export JAVA_HOME=/usr/lib/jvm/java-8-oracle
并开启:
export HBASE_MANAGES_ZK=true
4.4 修改./conf/hbase-site.xml
<configuration> <property> <name>hbase.rootdir</name> <value>hdfs://localhost:9000/hbase</value> </property> <property> <name>hbase.cluster.distributed</name> <value>true</value> </property> <property> <name>hbase.zookeeper.property.dataDir</name> <value>/data/hbase/zookeeper</value> </property></configuration>
4.5 删掉./lib/hadoop-core-1.0.4.jar并从hadoop拷贝
cp /usr/local/hadoop/hadoop-core-1.2.1.jar ./lib/
4.6 启动hbase
./bin/start-hbase.sh
4.7 检验hbase正确启动
执行./bin/hbase shell启动终端并执行list结果如下:
hbase(main):002:0> listTABLE0 row(s) in 0.0170 secondshbase(main):003:0>
4.8 hbase的Master状态页面
http://localhost:60010/master-status
5 安装nutch 2.3
5.1 下载apache-nutch-2.3-src.tar.gz并解压到/usr/local/nutch,修改目录权限
sudo chmod 777 -R nutch
52 修改./conf/gora.properties增加如下一行
gora.datastore.default=org.apache.gora.hbase.store.HBaseStore
5.3 修改./conf/nutch-site.xml
<configuration> <property> <name>storage.data.store.class</name> <value>org.apache.gora.hbase.store.HBaseStore</value> <description>Default class for storing data</description> </property> <property> <name>http.agent.name</name> <value>My Nutch Spider</value> </property> <property> <name>plugin.includes</name> <value>protocol-httpclient|urlfilter-regex|index-(basic|more)|query-(basic|site|url|lang)|indexer-solr|nutch-extensionpoints|protocol-httpclient|urlfilter-regex|parse-(text|html|msexcel|msword|mspowerpoint|pdf)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)protocol-http|urlfilter-regex|parse-(html|tika|metatags)|index-(basic|anchor|more|metadata)</value> </property></configuration>
5.4 修改./ivy/ivy.xml
将依赖的hadoop-core和hadoop-test的版本由1.2.0改为1.2.1
将gora-hbase依赖解除注释如下:
<dependency org=”org.apache.gora” name=”gora-hbase” rev=”0.5″ conf=”*->default” />
5.5 编译:ant
6 安装solr 4.9.1
6.1 下载solr-4.9.1.tar并解压到/usr/local/solr,修改目录权限
sudo chmod 777 -R solr
6.2 进入/usr/local/solr/example,覆盖nutch的schema.xml执行:
cp /usr/local/nutch/runtime/local/conf/schema.xml solr/collection1/conf/schema.xml
6.3 启动solr
java -jar start.jar
6.4 访问http://localhost:8983/solr/#/collection1/query查看solr页面
7 启动抓取并测试搜索效果
7.1 添加抓取URL
进到/usr/local/nutch/runtime/local目录,创建urls目录并创建url.txt文件内容为种子url,如:
http://www.cnbeta.com
7.2 执行
./bin/crawl urls TestCrawl http://localhost:8983/solr 2
7.3 查询
在http://localhost:8983/solr/#/collection1/query检索可以看到结果
1 0
- [Nutch]Nutch2.3+Hadoop+HBase+Solr在Ubuntu环境搭建
- 使用 Hadoop,Nutch ,Hbase,Solr 搭建搜索引擎之Nutch2.2.1
- 【Nutch2.3基础教程】集成Nutch/Hadoop/Hbase/Solr构建搜索引擎:安装及运行【集群环境】
- 【Nutch2.3基础教程】集成Nutch/Hadoop/Hbase/Solr构建搜索引擎:安装及运行【集群环境】
- 【Apache Nutch系列】Nutch2.2+hadoop+hbase+zookeeper环境部署
- 【Nutch2.2.1基础教程之2.1】集成Nutch/Hbase/Solr构建搜索引擎之一:安装及运行【单机环境】
- 【Nutch2.2.1基础教程之2.1】集成Nutch/Hbase/Solr构建搜索引擎之一:安装及运行【单机环境】
- 使用 Hadoop,Nutch ,Hbase,Solr 搭建搜索引擎之Hbase-0.94.27.搭建
- nutch+hadoop环境搭建
- nutch/solr/lucene//hadoop/hbase 搜索引擎
- 使用 Hadoop,Nutch ,Hbase,Solr 搭建搜索引擎之Hadoop1.2.1搭建
- 使用 Hadoop,Nutch ,Hbase,Solr 搭建搜索引擎之搭建solr4.9.1
- 利用nutch、hbase和solr搭建搜索引擎
- 使用 Hadoop,Nutch ,Hbase,Solr 搭建搜索引擎抓取并测试搜索结果
- [精华]Hadoop,HBase分布式集群和solr环境搭建
- [精华]Hadoop,HBase分布式集群和solr环境搭建
- Hadoop,HBase分布式集群和solr环境搭建
- 【Nutch2.2.1基础教程之2.2】集成Nutch/Hbase/Solr构建搜索引擎之二:内容分析
- Java关键字的大致含义
- hdu 4907(并查集)
- Linux内核部件分析 设备驱动模型之device
- JDK与设计模式:代理模式
- acm_畅通工程
- [Nutch]Nutch2.3+Hadoop+HBase+Solr在Ubuntu环境搭建
- 【剑指offer】数值的整数次方
- bitmap.compress(图片压缩的两种方式)(1,质量压缩;2,采样率压缩)
- 重温2 在Activity中使用Menu
- Linux内核部件分析 设备驱动模型之driver
- 判断两个单链表是否相交
- 创建存储函数
- 测试20160619
- Java使用实现分页的