大数据学习篇:hadoop深入浅出系列之hadoop伪分布式安装

来源:互联网 发布:橡皮砖淘宝店铺 编辑:程序博客网 时间:2024/06/05 00:57

终于有点时间了,来写写大数据相关内容吧,大数据发展有点快,衍生出了太多的技术。先从基础的hadoop说起吧,hadoop是何物就不多说了,今天我们来说安装。

环境win7,虚拟机客户端VMware Workstation,在客户端上安装linux系统,我们选的是centos(至于安装此处就不讲了)

一:设置网络

1:网络设置


我选择的是桥接模式(至于各种模式什么作用,在此处不做说明)

2:连接网络,打开虚拟机,右上方有个小电视图标,如果没有连接上网络,会有个红叉,连接上就有两个小电视图样。点击编辑


如果有网络连接就会出现一个,如果没有,点击右上角的 Add 按钮




如果有就双击名字,弹出如下界面,选择ipv4****,然后method选择Manual,然后填写ip 网关 dns服务之类的,ip一定要没有冲突,win环境用ipconfig测试,linux环境用ifconfig测试


搞完之后,ping一下虚拟机和我们的电脑是否连通



ok,然后我们设置主机名

ps:如果用的不是镜像,而是从别人那拷来的虚拟机文件,网络需要重新设置,先移除,然后再添加即可


二:主机名设置

主机名是什么,举个简单的例子,比如你电脑的用户名叫admin,那么这个就是主机名,那么我们虚拟机的主机名呢,就是我们装系统之后给系统起的名字啦


还有个方法可以看,就是使用命令行的方式



由于业务逻辑的需要,或者实际工作中主机会很多,给主机重新命名是势在必行的

很多人可能会想到用用命令行的方式修改主机名

一看,修改成功了,其实呢

其实是成功了,注意:这只在当前会话有效,会话结束,主机名回到以前状态


那么有木有一劳永逸的办法呢,办法还是有的,

修改 /etc/sysconfig/network文件里面相关内容即可

打开之后,我们发现主机名并没有变化

用vi命令进行修改,然后保存


下面绑定主机名到ip上

比如我们ping www.baidu.com就到了百度了

那我们当然也可以做到ping主机名就到了我们想要的ip地址

然后我们就可以很任性的ping一下我们的主机名

果然通了,太神奇了,是不是


三:关闭防火墙

我们知道,在安装hadoop的时候会打开很多端口,由于是小打小闹,所以不必去一个端口一个端口的开放,我们就直接全部开放,那么关闭防火墙就可以了

注意,防火墙的服务名不是firewalls而是iptables

下面我们关闭防火墙

service iptables stop

然后检查下状态

service iptables status

为了防止防火墙在重启电脑的时候重新启动,那么我们需要执行关闭防火墙自启动功能

chkconfig iptables off


四:SSH免密码登录

由于各个主机之间需要通信,所以需要设置ssh免密码登录

首先我们在客户端输入 ssh  localhost 

要求我们输入密码

之后我们输入 ssh-keygen -t rsa

然后一直回车即可

这样就产生了一个公钥,一个私钥

打开看一看,是一串好长的加密之后的字符串

然后把找个拷到别的机子上,这样就能互相访问了,此处因为没有别的电脑,所以就拷到自己的电脑上了
ssh-copy-id -i localhost,执行完之后又多了一个authorized_keys文件,我们打开看一下,发现跟公钥内容是一样的


五:安装和设置JDK

由于我的工具上没有装SecureFX,所以我就索性下了一个FlashFXP,然后把jdk传到linux上去,此处我用的是jdk1.7版本

我传输的路径是 usr/local


然后执行命令 tar -zxvf jdk-7u79-linux-x64.tar.gz 进行解压

脑补一下:

x : 从 tar 包中把文件提取出来
z : 表示 tar 包是被 gzip 压缩过的,所以解压时需要用 gunzip 解压
v : 显示详细信息
f xxx.tar.gz :  指定被处理的文件是 xxx.tar.gz



之后大家知道的,当然是要配置环境变量啦

你可能要用到一下命令

o是增加一空白行

u是回撤之前的操作



注意:想要环境变量生效,要执行命令     source /etc/profile,当然,如果你不嫌麻烦可以重启虚拟机。

然后执行 java -version查看操作是否生效



从图中我们可以看出,生效啦。下面我们就要安装hadoop了。

因为是本地环境,所以我们采用的是伪分布式安装


六:安装hadoop

同样先把本地文件传到linux系统中

然后执行解压缩操作

tar -zxvf hadoop-2.6.0.tar.gz

解压完之后查打开看一下里面的文件夹


其中bin是hadoop的一些配置文件啥的  sbin是一些和hadoop有关的一些东西的一些设置,比如dfs    ,etc里面有个hadoop文件,这算是hadoop的主目录了,share里面有一些文档和一些jar包   libexec中也有一些配置文件   lib暂且不知

因为hadoop是java语言写的,所以jdk的配置是跑不掉的,前面我们配置了总体环境变量,现在我们需要配置hadoop配置文件中的环境变量

修改  etc/hadoop/hadoop-env.sh

JAVA_HOME=/usr/local/jdk1.7.0_79

修改配置文件etc/hadoop/core-site.xml:
<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://192.168.1.97:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name><!--此路径可以随便指定,但要注意的是被指定的文件夹必须有些操作,负责肯定会报错-->
        <value>/usr/local/hadoop-2.6.0/tmp</value>   
 </property>
    <property>
        <name>fs.trash.interval</name>
        <value>1440</value>
    </property>
</configuration>

修改配置文件etc/hadoop/hdfs-site.xml:
<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
 <property>
        <name>dfs.permissions</name>
        <value>false</value>
    </property>
</configuration>

配置完之后格式化一下

bin/hdfs namenode -format

格式化完毕之后启动一下hdfs集群

sbin/start-dfs.sh

我们发现执行了三个进程

我们用jps命令也可以查看启动的进程

这个时候我们在linux环境打开浏览器

地址栏输入http://localhost:50070/


这样我们的集群就搭建完成了


补充:因为hadoop2有了yarn这个好东西,所以我们怎么能放过呢,接下来我们安装yarn


修改配置文件etc/hadoop/mapred-site.xml:
<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

修改配置文件etc/hadoop/yarn-site.xml:
<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

配置完成之后,启动yarn:sbin/start-yarn.sh

启动的同时也生成了日志文件


然后在linux系统浏览器中输入 http://localhost:8088


出现上图界面,代表安装成功了


那么没有数据咋搞,在share/hadoop/mapreduce目录下有个hadoop-mapreduce-examples-2.6.0.jar文件

运行一下(注意先要写input目录,要不然会报错)

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar wordcount input output

操作的同时,我们查看页面

看红色标出的地方,

然后执行命令查看结果

bin/hdfs dfs -cat output/*




ok,大家应该知道怎么去搭建伪分布式集群了吧。




1 0
原创粉丝点击