Hadoop组件配置

来源：互联网发布：手机电影拍摄软件编辑：程序博客网时间：2024/06/07 10:25

1.hadoop安装配置:

1.1.安装设置Hadoop需要的JDK(jdk-7u21-linux-x64.tar.gz)

tar zxvf jdk-7u21-linux-x64.tar.gz

ln -s jdk1.7.0_21 jdk

1.2.用户权限设置
                useraddhadoop -d /opt/hadoop_home
                ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
                cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
                chmod 600 ~/.ssh/authorized_keys
                (测试用) ssh localhost

1.3安装Hadoop
                cd /opt
                tar xvf hadoop-2.7.1.tar
                ln -s hadoop-2.7.1 hadoop

1.4设置运行时环境变量(Bash)（对所有用户永久性修改）
vi /etc/profile
添加：
export JAVA_HOME=/opt/jdk1.7.0_75
export PATH=$JAVA_HOME/bin:$PATH
export HADOOP_HOME=/opt/hadoop
export CLASSPATH=$JAVA_HOME/lib:$JAVA_HOME/jre/lib
export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$HADOOP_HOME/bin:$PATH
export HADOOP_VERSION=2_7_x

source /etc/profile (使环境变量生效)

1.5设置数据存储目录
mkdir -p /opt/hadoop/data
chmod 777 /opt/hadoop/data

1.6修改${HADOOP_HOME}/etc/hadoop/core-site.xml
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/hadoop/data</value>
</property>
<property>
<name>fs.default.name</name>

<value>hdfs://localhost:9000/</value>
</property>
</configuration>
1.7修改${HADOOP_HOME}/etc/hadoop/yarn-site.xml
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>localhost</value>
<description>The hostname of the RM.</description>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
</configuration>
1.8修改${HADOOP_HOME}/etc/hadoop/mapred-site.xml（注意此处haoop目录下并没有xml文件，只有.xml.template文件，此时需要复制）
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
1.9修改${HADOOP_HOME}/etc/hadoop/hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>

1.10修改hadoop-env.sh中的JAVA_HOME

1.11编辑slaves文件，添加slave节点的机器名
localhost添加至文件 /opt/hadoop/etc/hadoop/slaves 中

1.12格式化HDFS (在NameNode节点上)
cd ${HADOOP_HOME}/bin
hadoop namenode -format
1.13启动Hadoop集群
$HADOOP_HOME/sbin/start-all.sh
注意：在安装过程中，要经常执行 source /etc/profile

注意：hadoop命令的运行目录为：/opt/hadoop/sbin

hadoop fs -cat /test.txt
hadoop fs -ls /
hadoop下/表示hadoop hdfs的根目录

2. HDFS操作基本命令

检查Live datanodes的数量

hadoop dfsadmin -report |grep Live

put: 上传本地文件到HDFS中

hadoop fs -put test.txt /

hadools: 列出HDFS中指定目录的文件
hadoop fs -ls /

mkdir: 在HDFS中创建目录
hadoop fs -mkdir /ForTest

cp: 复制HDFS中的某个文件或目录
hadoop fs -cp /ForTest /ForTestCopy

mv: 移动HDFS中的某个文件或目录到指定位置
hadoop fs -mv /test.txt /ForTest

rm: 删vim除HDFS中的某个文件或目录
hadoop fs -rm -r /ForTest (删除目录/ForTest)

3.如果出现如下错误

是 hostname :localhost.domain

/ etc /hosts :172.31.200.132 localhost.domain

/etc/sysconfig/network :localhost.domain

网上有解决的办法，是lib库的问题

5.由于重复格式化，会导致无法启动datanode。

解决办法：

删除datanode下current目录下的所有文件。

6. spark安装配置:

6.1安装spark
cd /opt

tar xvf spark-2.0.0-bin-hadoop2.7.tar
ln -s spark-2.0.0-bin-hadoop2.7 spark

6.2设置运行时环境变量(Bash)（对所有用户永久性修改）

vim /etc/profile

添加：

export SPARK_HOME=/opt/spark

export PATH=$PATH:$SPARK_HOME/bin

6.3修改spark-env.sh(在spark的/conf目录下)

mvspark-env.sh.template spark-env.sh

export JAVA_HOME=/opt/jdk1.7.0_75

export SPARK_MASTER_IP=localhost

export SPARK_WORKER_MEMORY=512M

export master=spark://localhost:7070

6.4修改slaves

cp slaves.template slaves

localhost

6.5启动spark集群
在sbin目录下 ./start-all.sh

验证：jps

或者在bin目录下：运行./run-example SparkPi 10

7. hive安装配置:

7.1安装hive
cd /opt

tar xvf apache-hive-2.1.0-bin.tar

ln -s apache-hive-2.1.0-bin hive

如何删除一个软链接：rm hive(不能rm hive/)

7.2设置运行时环境变量(Bash)（对所有用户永久性修改）

vim /etc/profile

添加：

export HIVE_HOME=/opt/hive

export PATH=$HIVE_HOME/bin:$PATH

7.3 HDFS上创建HIVE使用的目录

(安装完spark后原来版本的hadoop namenode消失,重新格式化hadoop（注意删除两个current文件夹下的内容）)

hadoop fs -mkdir /tmp

hadoop fs -mkdir -p /user/hive/warehouse

hadoop fs -chmod g+w /tmp
hadoop fs -chmod g+w /user/hive/warehouse

7.4 修改配置文件

cp hive-default.xml.template hive-site.xml

cphive-env.sh.template hive-env.sh

添加：HADOOP_HOME=/opt/hadoop

7.5.添加文件名为log4j2.xml的文件到$HIVE_HOME/conf

文件内容为：

<?xml version="1.0"encoding="UTF-8"?>
<Configuration status="OFF">
<Appenders>
<Console name="Console" target="SYSTEM_OUT">
<PatternLayout pattern="%d{HH:mm:ss.SSS} [%t] %-5level %logger{36} -%msg%n" />
</Console>
</Appenders>
<Loggers>
<Logger name="hive.server2.query.ApiQueryTest"level="trace">
<AppenderRef ref="Console" />
</Logger>
<Logger name="hive.server2.query" level="debug">
<AppenderRef ref="Console" />
</Logger>
<Root level="error">
<AppenderRef ref="Console" />
</Root>
</Loggers>
</Configuration>

7.6初始化Schema
cd $HIVE_HOME/bin
./schematool -dbType derby –initSchema

8.hive启动

首先启动hadoop

然后初始化Schema
– cd $HIVE_HOME/bin
– ./schematool -dbType derby –initSchema

0 0