大数据学习篇：hadoop深入浅出系列之hadoop伪分布式安装

来源：互联网发布：橡皮砖淘宝店铺编辑：程序博客网时间：2024/06/05 00:57

终于有点时间了，来写写大数据相关内容吧，大数据发展有点快，衍生出了太多的技术。先从基础的hadoop说起吧，hadoop是何物就不多说了，今天我们来说安装。

环境win7，虚拟机客户端VMware Workstation，在客户端上安装linux系统，我们选的是centos（至于安装此处就不讲了）

一：设置网络

1：网络设置

我选择的是桥接模式（至于各种模式什么作用，在此处不做说明）

2：连接网络，打开虚拟机，右上方有个小电视图标，如果没有连接上网络，会有个红叉，连接上就有两个小电视图样。点击编辑

如果有网络连接就会出现一个，如果没有，点击右上角的 Add 按钮

如果有就双击名字，弹出如下界面，选择ipv4****，然后method选择Manual，然后填写ip 网关 dns服务之类的，ip一定要没有冲突，win环境用ipconfig测试，linux环境用ifconfig测试

搞完之后，ping一下虚拟机和我们的电脑是否连通

ok，然后我们设置主机名

ps：如果用的不是镜像，而是从别人那拷来的虚拟机文件，网络需要重新设置，先移除，然后再添加即可

二：主机名设置

主机名是什么，举个简单的例子，比如你电脑的用户名叫admin，那么这个就是主机名，那么我们虚拟机的主机名呢，就是我们装系统之后给系统起的名字啦

还有个方法可以看，就是使用命令行的方式

由于业务逻辑的需要，或者实际工作中主机会很多，给主机重新命名是势在必行的

很多人可能会想到用用命令行的方式修改主机名

一看，修改成功了，其实呢

其实是成功了，注意：这只在当前会话有效，会话结束，主机名回到以前状态

那么有木有一劳永逸的办法呢，办法还是有的，

修改 /etc/sysconfig/network文件里面相关内容即可

打开之后，我们发现主机名并没有变化

用vi命令进行修改，然后保存

下面绑定主机名到ip上

比如我们ping www.baidu.com就到了百度了

那我们当然也可以做到ping主机名就到了我们想要的ip地址

然后我们就可以很任性的ping一下我们的主机名

果然通了，太神奇了，是不是

三：关闭防火墙

我们知道，在安装hadoop的时候会打开很多端口，由于是小打小闹，所以不必去一个端口一个端口的开放，我们就直接全部开放，那么关闭防火墙就可以了

注意，防火墙的服务名不是firewalls而是iptables

下面我们关闭防火墙

service iptables stop

然后检查下状态

service iptables status

为了防止防火墙在重启电脑的时候重新启动，那么我们需要执行关闭防火墙自启动功能

chkconfig iptables off

四：SSH免密码登录

由于各个主机之间需要通信，所以需要设置ssh免密码登录

首先我们在客户端输入 ssh localhost

要求我们输入密码

之后我们输入 ssh-keygen -t rsa

然后一直回车即可

这样就产生了一个公钥，一个私钥

打开看一看，是一串好长的加密之后的字符串

然后把找个拷到别的机子上，这样就能互相访问了，此处因为没有别的电脑，所以就拷到自己的电脑上了
ssh-copy-id -i localhost，执行完之后又多了一个authorized_keys文件，我们打开看一下，发现跟公钥内容是一样的

五：安装和设置JDK

由于我的工具上没有装SecureFX，所以我就索性下了一个FlashFXP，然后把jdk传到linux上去，此处我用的是jdk1.7版本

我传输的路径是 usr/local

然后执行命令 tar -zxvf jdk-7u79-linux-x64.tar.gz 进行解压

脑补一下：

x : 从 tar 包中把文件提取出来
z : 表示 tar 包是被 gzip 压缩过的，所以解压时需要用 gunzip 解压
v : 显示详细信息
f xxx.tar.gz : 指定被处理的文件是 xxx.tar.gz

之后大家知道的，当然是要配置环境变量啦

你可能要用到一下命令

o是增加一空白行

u是回撤之前的操作

注意：想要环境变量生效，要执行命令 source /etc/profile，当然，如果你不嫌麻烦可以重启虚拟机。

然后执行 java -version查看操作是否生效

从图中我们可以看出，生效啦。下面我们就要安装hadoop了。

因为是本地环境，所以我们采用的是伪分布式安装

六：安装hadoop

同样先把本地文件传到linux系统中

然后执行解压缩操作

tar -zxvf hadoop-2.6.0.tar.gz

解压完之后查打开看一下里面的文件夹

其中bin是hadoop的一些配置文件啥的 sbin是一些和hadoop有关的一些东西的一些设置，比如dfs ，etc里面有个hadoop文件，这算是hadoop的主目录了，share里面有一些文档和一些jar包 libexec中也有一些配置文件 lib暂且不知

因为hadoop是java语言写的，所以jdk的配置是跑不掉的，前面我们配置了总体环境变量，现在我们需要配置hadoop配置文件中的环境变量

修改 etc/hadoop/hadoop-env.sh

JAVA_HOME=/usr/local/jdk1.7.0_79

修改配置文件etc/hadoop/core-site.xml:
<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://192.168.1.97:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/usr/local/hadoop-2.6.0/tmp</value>
</property>
    <property>
        <name>fs.trash.interval</name>
        <value>1440</value>
    </property>
</configuration>

修改配置文件etc/hadoop/hdfs-site.xml:
<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
<property>
        <name>dfs.permissions</name>
        <value>false</value>
    </property>
</configuration>

配置完之后格式化一下

bin/hdfs namenode -format

格式化完毕之后启动一下hdfs集群

sbin/start-dfs.sh

我们发现执行了三个进程

我们用jps命令也可以查看启动的进程

这个时候我们在linux环境打开浏览器

地址栏输入http://localhost:50070/

这样我们的集群就搭建完成了

补充：因为hadoop2有了yarn这个好东西，所以我们怎么能放过呢，接下来我们安装yarn

修改配置文件etc/hadoop/mapred-site.xml:
<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

修改配置文件etc/hadoop/yarn-site.xml:
<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

配置完成之后，启动yarn：sbin/start-yarn.sh