Hadoop 伪分布式搭建 Pseudo-Distributed Mode

来源:互联网 发布:淘宝怎么购物和付款 编辑:程序博客网 时间:2024/05/17 00:15

  • Hadoop 简介
  • 配置操作
    • Linux 系统配置
    • Hadoop 安装配置
      • 解压安装并配置环境变量
      • 配置 HDFS
      • 配置 yarn 并将 MapReduce 交由 yarn 运行
      • 配置日志服务器
      • 启动服务
        • 配置 SSH 秘钥

Hadoop 简介

Hadoop是一个开源的、可靠的、可扩展的分布式并行计算框架

主要组成:分布式文件系统HDFS和MapReduce计算模型

Hadoop 项目主要包括以下四个模块:
- Hadoop Common:为其他Hadoop模块提供基础设施
- Hadoop HDFS:一个高可靠、高吞吐量的分布式文件系统
- Hadoop MapReduce:一个分布式的离线并行计算框架
- Hadoop Yarn:一个新的MapReduce框架,任务调度与资源管理

配置操作

官网文档

如非必要,应尽量在普通用户下操作

Linux 系统配置

修改网卡信息

vi /etc/sysconfig/network-scripts/ifcfg-eth0ONBOOT=yesBOOTPROTO=staticIPADDR=192.168.138.7NETMASK=255.255.255.0GATEWAY=192.168.138.2DNS1=192.168.138.2

ip地址网段和本机相同,修改完成后重启网络服务 service network restart

修改主机名

vi /etc/sysconfig/networkHOSTNAME=oldecho01.domain

关闭防火墙和子安全系统

service iptables stopchkconfig iptables offvi /etc/sysconfig/selinuxSELINUX=disabled

查看防火墙状态

service iptables statuschkconfig --list | grep iptables

设置域名映射

vi /etc/hosts192.168.138.7 oldecho01.domain

设置普通用户

按需执行

useradd tomecho blue | passwd --stdin tommkdir /opt/modulesmkdir /opt/softwareschown tom:tom /opt/modules/chown tom:tom /opt/softwares/

将压缩包放在softwares中,安装到modules中

安装JDK

检查已安装的java rpm包,如有则删除

rpm -qa | grep -i javarpm -e --nodeps java-1.7.0-openjdk-1.7.0.9-2.3.4.1.e16_3.x86_64

解压安装并配置环境变量

tar -zxvf /opt/softwares/jdk-7u67-linux-x64.tar.gz -C /opt/modules/vi /etc/profileJAVA_HOME=/opt/modules/jdk1.7.0_67export PATH=$PATH:$JAVA_HOEM/bin

Hadoop 安装配置

修改文件建议使用Notepad++远程工具

解压安装并配置环境变量

tar -zxvf /opt/softwares/hadoop-2.5.0.tar.gz -C /opt/modules/vi /etc/profileexport HADOOP_INSTALL=/opt/modules/hadoop-2.5.0export PATH=$PATH:$HADOOP_INSTALL/bin:$HADOOP_INSTALL/sbin

环境变量可以不配置,通常我们都在 Hadoop 安装目录下执行命令

配置 HDFS

主要配置内容为 namenode、datanode

配置文件在 /opt/modules/hadoop-2.5.0/etc/hadoop/

修改 hadoop-env.sh

export JAVA_HOME=/opt/modules/jdk1.7.0_67

修改 core-site.xml

<!-- 指定 namenode 的访问地址 --><property>    <name>fs.defaultFS</name>    <value>hdfs://oldecho01.domain:8020</value></property><!-- 指定数据存放目录,格式化时自动生成 --><property>    <name>hadoop.tmp.dir</name>    <value>/opt/modules/hadoop-2.5.0/data</value></property><!-- 指定 secondnamenode 地址 --><property>    <name>dfs.namenode.secondary.http-address</name>    <value>oldecho01.domain:50090</value></property>

secondarynamenode 可以不配置,事实上在伪分布式下没有什么意义

修改 hdfs-site.xml

<!-- Block 的副本数,通常为3,伪分布式为1 --><property>    <name>dfs.replication</name>    <value>1</value></property>

格式化 namenode

cd /opt/modules/hadoop-2.5.0/bin/hdfs namenode -format

修改 slaves

一行一个主机名,而这些主机都是datanode,而伪分布式下只有一个从节点

oldecho01.domain

配置 yarn 并将 MapReduce 交由 yarn 运行

主要配置内容 resourcemanager、nodemanager、mapreduce运行框架

nodemanager 位置也是由 slaves 决定

修改 yarn-site.xml

<!-- 指定 resourcemanager 主机 --><property>    <name>yarn.resourcemanager.hostname</name>    <value>oldecho01.domain</value></property><!-- nodemanager 上运行的辅助(auxiliary)服务,需配置成 mapreduce_shuffle 才能运行 mapreduce 程序 --><property>    <name>yarn.nodemanager.aux-services</name>    <value>mapreduece_shuffle</value></property>

修改 mapred-site.xml

拷贝 mapred-site.xml.template 文件并重命名为 mapred-site.xml

<!-- 指定 mapreduce 运行框架为 yarn --><property>    <name>mapreduce.framework.name</name>    <value>yarn</value></property>

配置日志服务器

yarn 平台上启用日志,mapreduce 上开启jobhistory服务

修改 yarn-site.xml

<!-- 启用日志聚合功能 --><property>    <name>yarn.log-aggregation-enable</name>    <value>true</value></property><!-- 日志保留时间,86400s=24h --><property>    <name>yarn.log-aggregation.retain-seconds</name>    <value>86400</value></property>

修改 mapred-site.xml

<!-- jobhistory 服务的IPC地址(inter-process communication) --><property>    <name>mapreduce.jobhistory.address</name>    <value>oldecho01.domain:10020</value></property><!-- 日志的 web 访问地址 --><property>    <name>mapreduce.jobhistory.address</name>    <value>oldecho01.domain:19888</value></property>

启动服务

在 /opt/modules/hadoop-2.5.0/ 下,即 Hadoop 安装目录下执行命令

HDFS

sbin/hadoop-daemon.sh start namenodesbin/hadoop-daemon.sh start datanodesbin/hadoop-daemon.sh start secondarynamenode

namenode information:

  • http://oldecho01.domain:50070/
  • http://oldecho01.domain:50070/dfshealth.jsp

上述页面下,Utilities–Browse file system,可以查看文件系统

在文件系统内实现存储

vi test.txtbin/hdfs dfs -mkdir /inputbin/hdfs dfs -put test.txt /input

yarn

sbin/yarn-daemon.sh start resourcemanagersbin/yarn-daemon.sh start nodemanager

yarn 的监控平台:http://oldecho01.domain:8088

运行一个 mapreduce 例子(Wordcount):

bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount /input /output

可以在上述监控平台上查看运行信息,使用以下命令可查看结果:

bin/hdfs dfs -cat /output/p*

jobhistory

sbin/mr-jobhistory-daemon.sh start historyserver

jobhistory 的web访问:http://oldecho01.domain:19888

此时查看 jps 可以看到以下6个守护进程:

  • namenode
  • datanode
  • secondarynamenode
  • resourcemanager
  • nodemanager
  • historyserver

配置 SSH 秘钥

cd ~/.sshssh-keygenssh-copy-id [hostname]

此时可以按模块启动服务,historyserver 还是要单独启动

start-dfs.shstart-yarn.sh
原创粉丝点击
热门问题 老师的惩罚 人脸识别 我在镇武司摸鱼那些年 重生之率土为王 我在大康的咸鱼生活 盘龙之生命进化 天生仙种 凡人之先天五行 春回大明朝 姑娘不必设防,我是瞎子 微信版本低无法登录无法升级怎么办 手机淘宝五应用界面无法打开怎么办 入住淘宝主播没有微博粉丝怎么办 手机淘宝领金币怎么没有了怎么办 淘宝荬家缺货对付款买家怎么办 淘宝买家确认收货后申请退款怎么办 淘宝东西失效了但付过款了怎么办 淘宝图片被投诉盗图怎么办原图没了 淘宝退款申请不小心撤销了怎么办 淘宝不小心点了撤销退款怎么办 淘宝上退款不小心撤销了怎么办 新店淘宝卖家想开通直播怎么办 想开通淘宝直播却没有粉丝怎么办 淘宝店家拒绝给我改地址怎么办0 淘宝被投诉卖假申诉失败怎么办 要退保证金但是有人买东西了怎么办 手机淘宝上我是商家停止服务怎么办 淘宝上买的电脑商家关闭了怎么办 淘宝链接复制链链接发不出去怎么办 淘宝卖家填错地址货已经发了怎么办 拼多多没交保证金无法提现怎么办 信用卡被别人刷了没证据怎么办 我在淘宝开个店卖衣服没人买怎么办 收货地址填错了卖家已发货怎么办 淘宝店上的供货商不发货怎么办 在淘宝买的花退到卖家后死了怎么办 在淘宝买东西付款开通了花呗怎么办 淘宝网投诉卖家也不处理问题怎么办 淘宝图片空间上传不了大图片怎么办 不小心把设置里打印机删掉了怎么办 电脑上qq不小心删掉了怎么办 进了一批款式不好卖的衣服怎么办? 淘宝首页图片不居中代码装的怎么办 小语言代码装修以后不是全屏怎么办 招教年龄超过4个月怎么办 淘宝上注册的店铺被别人用了怎么办 淘宝贷款后店铺转让了贷款怎么办 手机千牛发布宝贝类目找不到怎么办 亚马逊被移除销售权该怎么办 玉米煮水不够熟吃了怎么办 华为云手机找回关了找回手机怎么办