Hadoop组件配置

来源:互联网 发布:手机电影拍摄软件 编辑:程序博客网 时间:2024/06/07 10:25

1.hadoop安装配置:

1.1.安装设置Hadoop需要的JDK(jdk-7u21-linux-x64.tar.gz)

tar zxvf jdk-7u21-linux-x64.tar.gz

ln  -s  jdk1.7.0_21 jdk

1.2.用户权限设置
                useraddhadoop -d /opt/hadoop_home
                ssh-keygen -t  rsa  -P  ''  -f  ~/.ssh/id_rsa
                cat ~/.ssh/id_rsa.pub  >>  ~/.ssh/authorized_keys
                chmod 600  ~/.ssh/authorized_keys
                (测试用) ssh  localhost

1.3安装Hadoop
                cd /opt
                tar xvf  hadoop-2.7.1.tar
                ln -s  hadoop-2.7.1  hadoop

1.4设置运行时环境变量(Bash)(对所有用户永久性修改)
vi  /etc/profile
添加:
export JAVA_HOME=/opt/jdk1.7.0_75
export PATH=$JAVA_HOME/bin:$PATH
export HADOOP_HOME=/opt/hadoop
export CLASSPATH=$JAVA_HOME/lib:$JAVA_HOME/jre/lib
export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$HADOOP_HOME/bin:$PATH
export HADOOP_VERSION=2_7_x


source /etc/profile (使环境变量生效)


1.5设置数据存储目录
mkdir -p /opt/hadoop/data
 chmod 777 /opt/hadoop/data


1.6修改${HADOOP_HOME}/etc/hadoop/core-site.xml
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/hadoop/data</value>
</property>
<property>
        <name>fs.default.name</name>
        <!-- NameNode host -->
        <value>hdfs://localhost:9000/</value>
</property>
</configuration>
1.7修改${HADOOP_HOME}/etc/hadoop/yarn-site.xml
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>localhost</value>
<description>The hostname of the RM.</description>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
</configuration>
1.8修改${HADOOP_HOME}/etc/hadoop/mapred-site.xml(注意此处haoop目录下并没有xml文件,只有.xml.template文件,此时需要复制)
<configuration>
<property>
       <name>mapreduce.framework.name</name>
       <value>yarn</value>
</property>
</configuration>
1.9修改${HADOOP_HOME}/etc/hadoop/hdfs-site.xml
<configuration>
   <property>
      <name>dfs.replication</name>
      <value>1</value>
   </property>
</configuration>


1.10修改hadoop-env.sh中的JAVA_HOME


1.11编辑slaves文件,添加slave节点的机器名
localhost添加 至文件 /opt/hadoop/etc/hadoop/slaves 中


1.12格式化HDFS (在NameNode节点上)
 cd  ${HADOOP_HOME}/bin
 hadoop namenode -format
1.13启动Hadoop集群
$HADOOP_HOME/sbin/start-all.sh
注意:在安装过程中,要经常执行 source /etc/profile

注意:hadoop命令的运行目录为:/opt/hadoop/sbin

hadoop fs -cat /test.txt
hadoop fs -ls /
hadoop下/表示hadoop hdfs的根目录

2. HDFS操作基本命令

检查Live datanodes的数量

hadoop dfsadmin -report |grep Live

 

put: 上传本地文件到HDFS中

hadoop fs -put test.txt /

hadools:   列出HDFS中指定目录的文件
 hadoop fs -ls /

mkdir: 在HDFS中创建目录
hadoop fs -mkdir /ForTest

cp:   复制HDFS中的某个文件或目录 
hadoop fs -cp /ForTest /ForTestCopy

mv:  移动HDFS中的某个文件或目录到指定位置
hadoop fs -mv /test.txt /ForTest

rm: 删vim除HDFS中的某个文件或目录
hadoop fs -rm -r /ForTest (删除目录/ForTest)

3.如果出现如下错误

是 hostname                        :localhost.domain

    / etc /hosts                         :172.31.200.132   localhost.domain

    /etc/sysconfig/network    :localhost.domain

4

网上有解决的办法,是lib库的问题

5.由于重复格式化,会导致无法启动datanode。

解决办法:


删除datanode下current目录下的所有文件。

6. spark安装配置:

6.1安装spark
                cd  /opt

tar   xvf  spark-2.0.0-bin-hadoop2.7.tar
                ln   -s  spark-2.0.0-bin-hadoop2.7  spark

6.2设置运行时环境变量(Bash)(对所有用户永久性修改)

vim /etc/profile

添加:

export SPARK_HOME=/opt/spark

export PATH=$PATH:$SPARK_HOME/bin

 

6.3修改spark-env.sh(在spark的/conf目录下)

mvspark-env.sh.template  spark-env.sh

 

export JAVA_HOME=/opt/jdk1.7.0_75

export SPARK_MASTER_IP=localhost

export SPARK_WORKER_MEMORY=512M

export master=spark://localhost:7070

 

6.4修改slaves

cp  slaves.template slaves

localhost

6.5启动spark集群
在sbin目录下 ./start-all.sh

 

验证:jps

或者在bin目录下:运行./run-example SparkPi 10

 7. hive安装配置:

7.1安装hive
                cd  /opt

tar   xvf  apache-hive-2.1.0-bin.tar

ln    -s   apache-hive-2.1.0-bin hive

如何删除一个软链接:rm hive(不能rm hive/)

7.2设置运行时环境变量(Bash)(对所有用户永久性修改)

vim /etc/profile

添加:

export HIVE_HOME=/opt/hive

export PATH=$HIVE_HOME/bin:$PATH

 7.3 HDFS上创建HIVE使用的目录

(安装完spark后原来版本的hadoop namenode消失,重新格式化hadoop(注意删除两个current文件夹下的内容))

hadoop fs -mkdir /tmp

hadoop fs -mkdir -p /user/hive/warehouse

hadoop fs -chmod g+w /tmp
hadoop fs -chmod g+w /user/hive/warehouse

7.4 修改配置文件

cp hive-default.xml.template  hive-site.xml

   cphive-env.sh.template  hive-env.sh  

                  添加:HADOOP_HOME=/opt/hadoop

7.5.添加文件名为log4j2.xml的文件到$HIVE_HOME/conf

文件内容为:

 <?xml version="1.0"encoding="UTF-8"?>
<Configuration status="OFF">
<Appenders>
<Console name="Console" target="SYSTEM_OUT">
<PatternLayout pattern="%d{HH:mm:ss.SSS} [%t] %-5level %logger{36} -%msg%n" />
</Console>
</Appenders>
<Loggers>
<Logger name="hive.server2.query.ApiQueryTest"level="trace">
<AppenderRef ref="Console" />
</Logger>
<Logger name="hive.server2.query" level="debug">
<AppenderRef ref="Console" />
</Logger>
<Root level="error">
<AppenderRef ref="Console" />
</Root>
</Loggers>
</Configuration>

7.6初始化Schema
cd $HIVE_HOME/bin
./schematool -dbType derby –initSchema

 8.hive启动

   首先启动hadoop

然后初始化Schema
– cd $HIVE_HOME/bin
– ./schematool -dbType derby –initSchema





0 0
原创粉丝点击