使用ubuntu下使用Hadoop的检索单词

来源：互联网发布：select算法编辑：程序博客网时间：2024/06/14 03:27

特别声明：确定虚拟机Ubuntu本机是要可以联网的才可以以下操作否则需要下载和文件共享，这里我就不多说了。

在命令行敲入“vi”后按"tab"键，可以看到目前系统中只安装了vi和vim.tiny。

vim是从VI发展而来的一个文本编辑器，功能更强大。而vim.tiny是vim的精简版，所以，安装vim势在必行。

sudo apt-get install vim-gtk

输入“y”后，回车。

之后不需要任何操作，等待安装完成。

安装完成之后，在命令行敲入vi，按“tab”键。

可以看到，已经有vim命令的存在。

安装成功。

完成之后开始下面步骤：

第一步：新建用户代码入下

$ sudo adduser hadoop

第二步：添加sudo权限

$ sudo usermod -G sudo hadoop

第三步：更新文件目录

$ sudo apt-get update

第四步：安装openssh-server

$ sudo apt-get install openssh-server rsync

第五步启动：重启

$ sudo service ssh restart

第六步安装：JDk

$ sudo apt-get install openjdk-7-jdk

即显示版本

$ java -version

第七步：配置ssh免密码登录

$ su -l hadoop

配置ssh环境免密码登录。

$ ssh-keygen -t rsa -P ""

在/home/hadoop/.ssh目录下生成了id_rsa（私钥）和id_rsa.pub（公钥）两个文件,将公钥追加到authorized_keys中，该文件保存所有允许以当前用户身份登录到ssh客户端用户的公钥内容。

$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

此时登录就不用密码了

$ ssh localhost

第八步：下载Hadoop 2.6.0

$ wget http://labfile.oss.aliyuncs.com/hadoop-2.6.0.tar.gz

解压：

$ tar zxvf hadoop-2.6.0.tar.gz

修改文件名：

$ sudo mv hadoop-2.6.0 /usr/local/hadoop

安装：

$ sudo chmod 774 /usr/local/hadoop

配置Hadoop

$ vim /home/hadoop/.bashrc

在末尾输入一下配置

#HADOOP START
export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64
export HADOOP_INSTALL=/usr/local/hadoop
export PATH=$PATH:$HADOOP_INSTALL/bin
export PATH=$PATH:$HADOOP_INSTALL/sbin
export HADOOP_MAPRED_HOME=$HADOOP_INSTALL
export HADOOP_COMMON_HOME=$HADOOP_INSTALL
export HADOOP_HDFS_HOME=$HADOOP_INSTALL
export YARN_HOME=$HADOOP_INSTALL
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_INSTALL/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_INSTALL/lib"
#HADOOP END

保存退出后，激活新加的环境变量

$ source ~/.bashrc

测试验证：

创建输入的数据前，在etc路径下建立文件例如demo.txt

里面输入内容
yun ji suan shi yi xu ni ji shu wei ji chu
ni dui xu ni ji shu gan xing qu ma
yun ji shu shi bu shi hen sheng qi ne?
bu,ta jiu zai yan qian!
ji xu tan suo ba,hui you geng duo jing cai de ne!

完成后保存。

然后打开/usr/local/hadoop路径
$ cd /usr/local/hadoop

建立文件夹input
$ sudo mkdir input

把demo.txt移动在内
$ sudo cp /etc/demo.txt ./input

然后执行Hadoop WordCount应用（词频统计）
$ bin/hadoop jar share/hadoop/mapreduce/sources/hadoop-mapreduce-examples-2.6.0-sources.jar org.apache.hadoop.examples.WordCount input output

查看生成的单词统计数据
$ cat output/*

0 0