Hadoop组件配置
来源:互联网 发布:手机电影拍摄软件 编辑:程序博客网 时间:2024/06/07 10:25
1.hadoop安装配置:
1.1.安装设置Hadoop需要的JDK(jdk-7u21-linux-x64.tar.gz)
tar zxvf jdk-7u21-linux-x64.tar.gz
ln -s jdk1.7.0_21 jdk
1.2.用户权限设置
useraddhadoop -d /opt/hadoop_home
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 600 ~/.ssh/authorized_keys
(测试用) ssh localhost
1.3安装Hadoop
cd /opt
tar xvf hadoop-2.7.1.tar
ln -s hadoop-2.7.1 hadoop
1.4设置运行时环境变量(Bash)(对所有用户永久性修改)
vi /etc/profile
添加:
export JAVA_HOME=/opt/jdk1.7.0_75
export PATH=$JAVA_HOME/bin:$PATH
export HADOOP_HOME=/opt/hadoop
export CLASSPATH=$JAVA_HOME/lib:$JAVA_HOME/jre/lib
export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$HADOOP_HOME/bin:$PATH
export HADOOP_VERSION=2_7_x
source /etc/profile (使环境变量生效)
1.5设置数据存储目录
mkdir -p /opt/hadoop/data
chmod 777 /opt/hadoop/data
1.6修改${HADOOP_HOME}/etc/hadoop/core-site.xml
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/hadoop/data</value>
</property>
<property>
<name>fs.default.name</name>
<!-- NameNode host -->
<value>hdfs://localhost:9000/</value>
</property>
</configuration>
1.7修改${HADOOP_HOME}/etc/hadoop/yarn-site.xml
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>localhost</value>
<description>The hostname of the RM.</description>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
</configuration>
1.8修改${HADOOP_HOME}/etc/hadoop/mapred-site.xml(注意此处haoop目录下并没有xml文件,只有.xml.template文件,此时需要复制)
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
1.9修改${HADOOP_HOME}/etc/hadoop/hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
1.10修改hadoop-env.sh中的JAVA_HOME
1.11编辑slaves文件,添加slave节点的机器名
localhost添加 至文件 /opt/hadoop/etc/hadoop/slaves 中
1.12格式化HDFS (在NameNode节点上)
cd ${HADOOP_HOME}/bin
hadoop namenode -format
1.13启动Hadoop集群
$HADOOP_HOME/sbin/start-all.sh
注意:在安装过程中,要经常执行 source /etc/profile
注意:hadoop命令的运行目录为:/opt/hadoop/sbin
hadoop fs -cat /test.txt
hadoop fs -ls /
hadoop下/表示hadoop hdfs的根目录
2. HDFS操作基本命令
检查Live datanodes的数量
hadoop dfsadmin -report |grep Live
put: 上传本地文件到HDFS中
hadoop fs -put test.txt /
hadools: 列出HDFS中指定目录的文件
hadoop fs -ls /
mkdir: 在HDFS中创建目录
hadoop fs -mkdir /ForTest
cp: 复制HDFS中的某个文件或目录
hadoop fs -cp /ForTest /ForTestCopy
mv: 移动HDFS中的某个文件或目录到指定位置
hadoop fs -mv /test.txt /ForTest
rm: 删vim除HDFS中的某个文件或目录
hadoop fs -rm -r /ForTest (删除目录/ForTest)
是 hostname :localhost.domain
/ etc /hosts :172.31.200.132 localhost.domain
/etc/sysconfig/network :localhost.domain
4网上有解决的办法,是lib库的问题
5.由于重复格式化,会导致无法启动datanode。
解决办法:
删除datanode下current目录下的所有文件。
6. spark安装配置:
6.1安装spark
cd /opt
tar xvf spark-2.0.0-bin-hadoop2.7.tar
ln -s spark-2.0.0-bin-hadoop2.7 spark
6.2设置运行时环境变量(Bash)(对所有用户永久性修改)
vim /etc/profile
添加:
export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin
6.3修改spark-env.sh(在spark的/conf目录下)
mvspark-env.sh.template spark-env.sh
export JAVA_HOME=/opt/jdk1.7.0_75
export SPARK_MASTER_IP=localhost
export SPARK_WORKER_MEMORY=512M
export master=spark://localhost:7070
6.4修改slaves
cp slaves.template slaves
localhost
6.5启动spark集群
在sbin目录下 ./start-all.sh
验证:jps
或者在bin目录下:运行./run-example SparkPi 10
7. hive安装配置:
7.1安装hive
cd /opt
tar xvf apache-hive-2.1.0-bin.tar
ln -s apache-hive-2.1.0-bin hive
如何删除一个软链接:rm hive(不能rm hive/)
7.2设置运行时环境变量(Bash)(对所有用户永久性修改)
vim /etc/profile
添加:
export HIVE_HOME=/opt/hive
export PATH=$HIVE_HOME/bin:$PATH
7.3 HDFS上创建HIVE使用的目录
(安装完spark后原来版本的hadoop namenode消失,重新格式化hadoop(注意删除两个current文件夹下的内容))
hadoop fs -mkdir /tmp
hadoop fs -mkdir -p /user/hive/warehouse
hadoop fs -chmod g+w /tmp
hadoop fs -chmod g+w /user/hive/warehouse
7.4 修改配置文件
cp hive-default.xml.template hive-site.xml
cphive-env.sh.template hive-env.sh
添加:HADOOP_HOME=/opt/hadoop
7.5.添加文件名为log4j2.xml的文件到$HIVE_HOME/conf
文件内容为:
<?xml version="1.0"encoding="UTF-8"?>
<Configuration status="OFF">
<Appenders>
<Console name="Console" target="SYSTEM_OUT">
<PatternLayout pattern="%d{HH:mm:ss.SSS} [%t] %-5level %logger{36} -%msg%n" />
</Console>
</Appenders>
<Loggers>
<Logger name="hive.server2.query.ApiQueryTest"level="trace">
<AppenderRef ref="Console" />
</Logger>
<Logger name="hive.server2.query" level="debug">
<AppenderRef ref="Console" />
</Logger>
<Root level="error">
<AppenderRef ref="Console" />
</Root>
</Loggers>
</Configuration>
7.6初始化Schema
cd $HIVE_HOME/bin
./schematool -dbType derby –initSchema
8.hive启动
首先启动hadoop
然后初始化Schema
– cd $HIVE_HOME/bin
– ./schematool -dbType derby –initSchema
- Hadoop组件配置
- 手工安装配置Cloudera组件-Hadoop
- Hadoop组件
- Hadoop 组件HDFS详解
- Hadoop组件概览
- Hadoop Combiner组件
- Hadoop常用组件学习
- 【hadoop】 4002-Combiner组件
- Hadoop Combiner组件
- Hadoop Partitioner组件
- Hadoop组件之Hive
- Hadoop 组件HDFS详解
- hadoop组件书籍列表
- hadoop组件概况
- hadoop组件学习
- Hadoop组件之Combiner
- Hadoop组件之Partitioner
- Hadoop组件之Sort
- 基于XMPP协议(openfire服务器)的消息推送实现
- 循环中的闭包
- Poweroj 1194(dp背包问题)
- A Boring Game
- Openfire 用户离线、断线 及心跳检测
- Hadoop组件配置
- 通过netcraft查询一个网站的服务信息
- 我的程序员之路(英语的学习)
- IONIC 自动更新APP版本
- Python自动运维系列:每天凌晨定时执行特定任务
- [勇者闯LeetCode] 35. Search Insert Position
- zscat分布式框架单机版代码生成crud
- 【ionic App问题总结系列】ionic 如何更新app版本
- 7个碎片的excel重组实验