Ubuntu系统下Hadoop伪分布模式及eclipse环境搭建

来源：互联网发布：阿部力网络主持编辑：程序博客网时间：2024/06/05 20:33

Hadoop是一个开源的框架,2005年Apache公司将Hadoop开始是Nutch的一个子项目，而Nuth又是Apache Lucene的一个子项目。2006年3月份，Map/Reduce和Nutch Distributed File System (NDFS) 分别被纳入称为 Hadoop 的项目中。
Hadoop相比较于其他的一些分布式计算系统有以下几个特点：
1.方便：Hadoop的集群安装非常的简单，它运行在一个由廉价计算机构成的大型集群上，或者是一些知名公司开发的与计算服务商。2.健壮：Hadoop的容错性非常高，它运行在一般的硬件上，其架构的设计是假设这些硬件会经常出现故障，Hadoop可以很容易地处理这些故障。3.可扩展性：Hadoop集群架构可以很方便的添加子节点，线性的扩展集群以处理更大规模的数据集。4.高效：数据可以在Hadoop集群的各个子节点中动态的移动，并保证每个节点的平衡，因此处理大数据集的速度非常快。5.容错高：Hadoop集群各个子节点能自动保存数据片的多个副本，每个数据片一般都会保存三份副本，主节点会自动将失败的任务重新分配到各个子节点。6.低成本：Hadoop是一个开源的集群架构，因此项目开发在软件的投资上成本会大大的降低。
一、以下是Hadoop伪分布模式下环境搭建的过程：
1 、安装虚拟机
1) 从网上下载Vmware-workstation-10.0.3，直接点击安装程序显示 (如图1.1所示)。
这里写图片描述
图1.1 安装虚拟机向导
2) 直接点击下一步如下图选择是否接受安装协议（如图1.2所示）

图1.2 接受许可
3) 选择接受许可协议中的条款，并点击下一步显示（如图1.3所示）选择安装类型

图1.3 选择安装类型
4) 这里需要选择典型安装还是自定义安装典型安装就是按着系统默认的一些配置进行自动安装，自定义安装需要自己有所选择，我这里选择自定义安装然后点击下一步，定义好自己的安装路径之后再点下一步，系统将会自动安装虚拟机（如图1.4所示）
这里写图片描述
图1.4 系统自动安装
5) 等待系统自动安装完之后点击下一步将会出现系统安装成功后的主页（如图1.5所示）

图1.5 虚拟机软件的主页
2 、虚拟机中安装操作系统
1) 打开已经安装好的虚拟机软件，选择创建新的虚拟机显示（如图2.1所示）
这里写图片描述
图2.1 选择安装配置
2) 典型安装是系统默认配置安装，我们这里选择自定义安装，然后点击下一步显示（如图2.2）

图2.2 选择虚拟机版本
3) 选择好安装的虚拟机版本（我们这里选择10.0），这是根据我们下载的虚拟机版本选择的，然后点击下一步显示（如图2.3）
这里写图片描述
图2.3 选择系统映像文件
4) 这里我们选择安装系统映像文件，选择好我们准备好的Linux系统路径并（这里我们使用Ubuntu-12.04系统）点击下一步并填写好相关的Ubuntu安装信息，点击下一步之后选择好系统安装的位置并点击下一步显示（如图2.4）
这里写图片描述
图2.4 选择系统安装路径
5) 接下来是一些虚拟机的相关配置，可以根据自己PC的性能和自己的需求进行相关的配置并持续选择下一步，直到已准备好创建虚拟机并点击完成（如图2.5）

图2.5 虚拟机准备安装系统
6) 系统成功安装之后显示（如图2.6）
这里写图片描述
图2.6 系统安装成功
3、 JDK安装
1) 打开master虚拟机，启动Ubuntu系统，假设jdk安装文件在桌面，这里我们安装的目录是：/usr/java,这里系统安装并没有Java这个文件夹，所以我们要去创建一个Java文件夹（如图3.1）
这里写图片描述
图3.1创建Java文件夹
2) 切换到桌面下，将jdk复制到Java文件夹下（如图3.2）

图3.2 复制jdk到Java文件夹下
3) 切换到管理员权限并安装jdk（如图3.3）

图3.3 安装jdk
4) 配置环境变量，并查看是否安装成功（如图3.4）
这里写图片描述
图3.4 查看是否安装成功
4、建立SSH无密码登录
1) 首先要安装openssh-server（如图4.1）

如图4.1安装 openssh-server
2) 因为现在的Ubuntu已经安装好了openssh了所以使用ssh –version可以查看ssh版本（如图4.2）

图4.2 查看ssh版本
3) ssh无秘钥登录有rsa和dsa两种生产方式，默认情况下采用rsa方式，创建ssh-keygen,这里我们采用rsa方式（如图4.3）
这里写图片描述
图4.3 创建ssh-keygen
4) 切换到/.ssh下（命令是cd .ssh/）,将id_rsa.pub追加到authorized_keys授权文件中，开始是没有authorized_keys文件的（如图4.4）

图4.4 追加authorized_keys授权
5) 登录localhost（如图4.5）

图4.5 登录localhost
6) 当ssh远程登录到其它机器后，现在你控制的是远程的机器，需要执行退出命令才能重新控制本地主机，执行退出命令（如图4.6）
这里写图片描述
图4.6 登出
5、安装Hadoop
1) 考虑到版本稳定的原因，这里我们采用的hadoop版本是：hadoop-0.20.2.tar.gz，前面的步骤跟安装jdk一样，将压缩文件复制到路径/usr并解压，将解压出来的文件更改名字为Hadoop（如图5.1）
这里写图片描述
图5.1 安装Hadoop
2) 修改conf/hadoop-env.sh（找到#export JAVA_HOME=…,去掉#，然后加上本机jdk的路径）(如图5.2和5.3)

图5.2 命令

图5.3修改文件
3) 打开conf/core-site.xml文件，编辑(如图5.4和图5.5)

图5.4命令

图5.5 编辑core-site.xml文件
4) 打开conf/core-site.xml文件，编辑(如图5.6和图5.7)
这里写图片描述
图5.6 命令

图5.7 编辑mapred-site.xml文件
5) 打开hdfs-site.xml，编辑（如图5.8和图5.9）

图5.8 命令

图5.9 编辑hdfs-site.xml文件
6) 打开启动进入Hadoop目录下，格式化hdfs文件系统，初次运行Hadoop是一定需要有该操作（如图5.10）
这里写图片描述
图5.10 格式化hdfs文件系统
7) 启动bin/start-all.sh并查看启动的是否成功（如图5.11）

图5.11 查看Hadoop是否成功
6、安装eclipse
1) 将eclipse的安装包复制到路径/usr下（如图6.1）

图6.1 复制eclipse安装包
2) 解压eclipse安装包并启动eclipse（如图6.2和图6.3）
这里写图片描述
图6.2 启动eclipse命令

图6.3 eclipse 启动成功
7、在eclipse中搭建运行mapreduce程序
1) 首先是启动Hadoop守护进程，然后在eclipse下安装Hadoop-Plugin插件复制 hadoop安装目录/contrib/eclipse-plugin/hadoop-0.20.2-eclipse-plugin.jar 到 eclipse安装目录/plugins/ 下。
2) 重启eclipse，配置hadoop installation directory。如果安装插件成功，打开Window–>Preferens，选择Hadoop Map/Reduce选项，在这个选项里配置Hadoop installation directory。配置完成后退出（如图7.1）
这里写图片描述
图7.1 安装插件
3) 配置Map/Reduce Locations。
在Window–>Show View中打开Map/Reduce Locations。
在这个View中，右键–>New Hadoop Location。在弹出的对话框中你需要配置Location name，如myubuntu，还有Map/Reduce Master和DFS Master。这里面的Host、Port分别为你在mapred-site.xml、core-site.xml中配置的地址及端口。（如图7.2）
这里写图片描述
图7.2 配置location
4) 配置完后退出。点击DFS Locations–>myubuntu如果能显示文件夹则说明配置正确，如果显示”拒绝连接”，请检查配置。如图（7.3）

图7.3 查看连接状态
5) 到这个步骤位置Hadoop的运行所需要的环境已经完全搭建完毕，接下去需要做的创建Hadoop项目并进行实践。
二、搭建环境过程中需要注意的事项
在搭建Hadoop环境的过程中会遇到很多的小问题，下面是一些注意事项，基本涵盖了本次搭建环境过程中的问题。
1，虚拟机安装操作系统时选择的版本尽量选择稳定的Linux操作系统，不需要追求最新，因为最新的可能在使用的过程中会不稳定，这里使用的是ubuntu-12.04.4-desktop-i386。
2，在安装操作系统的时候有两种上网的方式，（1）桥接模式：直接连接物理网络；2）NAT模式：用于共享主机的IP地址，选择第一种模式需要手动配置操作系统的IP地址才可以上网，第二种是共享物理主机的IP地址，这就不需要自己配置IP地址，只要物理主机可以上网，虚拟机的操作系统也可以上网。
3，在完成操作系统的安装之后有必要安装Vmware-Tools这个虚拟机工具，因为在环境搭建的过程中我们需要导入很多资料到操作系统中，安装好这个工具之后就可以直接将文件拖放到虚拟机中的操作系统里了，这大大方便了我们对文件的移动和存放。
4，安装JDK过程中需要注意操作系统的位数，如果JDK的位数和操作系统的位数不相同的话JDK很可能就无法安装成功。
5，建立SSH无秘钥登录过程需要注意Ubuntu本身是没有安装Openssh-server的，所以需要操作系统能上网并手动安装openssh-server，在重启虚拟机的时候如果无法进行SSH无秘钥登录的话就需要手动重启一下SSH。
6，安装Hadoop版本的时候最好也是使用稳定的版本，安装的过程中需要注意几个文件的配置，伪分布、单机版以及全分布的配置是不一样的，这里我们采用的是伪分布。初次运行Hadoop是一定需要对HDFS文件系统进行格式化，不然守护进行可能无法启动或者无法全部启动。
7，安装eclipse时也是需要注意eclipse的版本与操作系统和JDK的版本保持一致不然eclipse是无法正常启动的。
8，将数据文件上传到HDFS文件系统时需要注意该数据文件的编码格式和eclipse、操作系统的编码格式是否相同，一般情况下是不一致的，这需要我们修改一下操作系统和eclipse的编码格式。如果不一致，数据文件有中文的话就会出现乱码的情况。

0 0