Hadoop HBase Hive安装，配置，整合

来源：互联网发布：怎么避免淘宝客骗佣金编辑：程序博客网时间：2024/04/29 11:05

软件环境：Hadoop2.4, HBase0.98 for Hadoop2, Hive0.13

前期准备：

三台服务器：

192.168.0.1(namenode)

192.168.0.2(datanode1)

192.168.0.3(datanode2)

1）Java环境安装与配置，不再叙述

2）主机名称的修改，可选，但建议这样做：

在/etc/sysconfig/network文件中修改主机名

在/etc/hosts文件中配置主机名与IP地址的映射

192.168.0.1namenodenamenode

192.168.0.2datanode1datanode1

192.168.0.3datanode2datanode2

确保通过主机名可以访问各个节点

3）SSH无密码访问

在namenode上执行

ssh-keygen -t rsa一路回车

cd ~/.ssh 会生成id_rsa.pub文件

cat id_rsa.pub>>authorized_keys将密钥追加进认证文件中

chmod 700 authorized_keys修改认证文件权限

chmod 600 .这一步很重要，不可少，修改.ssh目录的权限

将id_rsa.pub追加到所在datanode结点的authorized_keys文件中，重复同样的步骤

修改所有机器的/etc/ssh/sshd_config文件

RSAAuthentication yes

PubkeyAuthentication yes

AuthorizedKeysFile ~/.ssh/authorized_keys

在namenode上用ssh测试接连各datanode是否成功不需要密码

Hadoop安装：

将解压hadoop安装包，（注意，这里从apache上下载的是32位的，而我们的服务器通常是64位的，这里的差别稍微会讲）

创建hadoop目录的软件链接:

ln -s hadoop目录 hadoop

修改~/.bashrc，配置一些环境变量，有些是可能的，但建议都配置上

export HADOOP_HOME=路径
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HADOOP_HOME/lib/native
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export LD_LIBRARY_PATH=$HADOOP_HOME/lib/native

进入hadoop/etc/hadoop目录，

在hadoop-env.sh末尾加入

export JAVA_HOME=路径

配置如下几个文件

1）core-site.xml

<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>/hadoop/tmp</value>
</property>
<property>
<name>fs.default.name</name>
<value>hdfs://namenode:9000</value>
</property>
<property>
<name>hadoop.proxyuser.root.hosts</name>
<value>namenode</value>
</property>
<property>
<name>hadoop.proxyuser.root.groups</name>
<value>*</value>
</property>
</configuration>

相关文件路径事先建立好

2）hdfs-site.xml

<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/hadoop/hdfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/hadoop/hdfs/data</value>
</property>
</configuration>

3）mapred-site.xml （如果没有就cp mapred-site.xml-template mapred-site.xml）

<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>

4）yarn-site.xml

<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>namenode:9001</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>namenode:18030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>namenode:18025</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>namenode:18035</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>namenode:18088</value>
</property>
</configuration>

5）slaves

datanode1

datanode2

如果系统是64位的，进入hadoop/lib/native目录下，用64位的库替换掉里面的32位库

将代码同步到所有datanode节点上，必须是相同的路径，相同的目录结构

hadoop namenode -format 格式化HDFS

start-all.sh 启动hadoop

jps 查看hadoop启动情况

NameNode

SecondaryNameNode

ResourceManager

出现上面3个进程说明启动成功，在hadoop2.4里面，用户yarn的resourcemanager替代了jobtracker与tasktracker

HBase安装配置

解压tar

进入hbase/conf目录

修改hbase-env.sh文件，在末尾加入

export JAVA_HOME=java路径

export HBASE_CLASSPATH=hbase/conf目录
export HBASE_MANAGERS_ZK=true

修改hbase-site.xml

<configuration>
<property>
<name>hbase.rootdir</name>
<value>hdfs://namenode:9000/hbase</value>
</property>
<property>
<name>hbase.cluster.distributed</name>
<value>true</value>
</property>
</configuration>