hadoop伪分布式搭建

来源:互联网 发布:课时优化八上英语答案 编辑:程序博客网 时间:2024/05/16 15:41

1、准备linux环境

安装VMware与CentOs

1.1修改主机名

vi /etc/sysconfig/network

1.2 关闭防火墙

#查看防火墙状态:service iptables status

#关闭防火墙:service iptables stop

#查看防火墙开机启动状态:chkconfig iptables --list

#关闭防火墙开机启动:chkconfig iptables off

1.3 重启linux reboot


2、安装jdk

2.1 alt+p 打开sftp窗口,put <jdk路径>

2.2 解压jdk到app文件夹

#创建文件夹:mkdir/home/hadoop/app

#解压:tar -zxvf jdk-7u55-linux-i586.tar.gz -C /home/hadoop/app

2.3 将java添加到环境变量中

vi /etc/profile

#在文件末尾添加配置:

export JAVA_HOME=/home/hadoop/app/jdk-7u_65-i585

export PATH=$PATH:$JAVA_HOME/bin

#刷新配置:source/etc/profile


3、安装hadoop2.4.1

3.1#上传hadoop的安装包到服务器上

3.2#解压

3.3#修改etc下配置文件

①修改hadoop-env.sh

#27行

export JAVA_HOME=/home/hadoop/app/jdk1.7.0_65

②修改core-site.xml

<configuration>

<!--指定HADOOP所使用的文件系统schema(URI),HDFS的NameNode的地址-->
<property>
<name>fs.defaultFS</name>
<value>hdfs://weekend110:9000</value>
</property>

<!--指定hadoop运行时产生文件的存储目录>

<property>
<name>hadoop.tmp.dir</name>
<value>/home/hadoop/app/hadoop-2.4.1/data/</value>
</property>
</configuration>

③修改hdfs-site.xml

<configuration>

<!--指定HDFS副本的数量-->
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>

④修改mapred-site.xml

#修改文件名 mv mapred-site.xml.template mapred-site.xml

<configuration>

<!--指定mr运行在yarn上-->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>

⑤修改yarn-site.xml

<configuration>

<!-- 指定yarn的ResourceManager的地址 -->
<property>
<name>yarn.resoucemanager.hostname</name>
<value>weekend110</value>
</property>

<!--指定reducer获取数据的方式-->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>

3.4将hadoop添加到环境变量中

vi /etc/profile

export HADOOP_HOME=/home/hadoop/app/hadoop-2.4.1
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

#刷新配置:source /etc/profile

3.5 格式化namenode(对namenode进行初始化)

hdfs namenode -format(hadoop namenode -format)

3.6 启动hadoop

先启动HDFS:sbin/start-dfs.sh

再启动yarn:sbin/start-yarn.sh

3.7 验证是否启动成功:jps查看当前进程


HDFS管理界面:http://192.168.1.100:50070

MR管理界面:http://192.168.1.100:8088


4、配置ssh免登陆(为了启动伪分布式集群不用密码)

将自己的公钥加入自己的授权列表

#进入ssh目录

cd .ssh

#新增权限文件

touch authorized_keys

#更改权限文件的读写权限

chmod 600 authorized_keys

#将公钥追加到权限文件后

cat id_rsa.pub >> authorized_keys









原创粉丝点击