hadoop 安装+本地运行wordCount

来源:互联网 发布:金芒网络电玩城 编辑:程序博客网 时间:2024/04/30 08:06

        一直以来,对大数据都有无限的向往之情,但又因身边无尽琐事,一直搁浅了一窥其真面目的计划

       幸而,在公司面临危险之境,竟有了时间来把它玩上一玩,中间踩了很多坑,现将其一 一记下,以便日后使用,也希望可以帮助想玩玩hadoop的你。

       本机系统:win7(64位)+虚拟机(vmare)+linux(ubuntu)

       1.在hadoop官网下载 hadoop-2.6.4.tar.gz 的安装包

        将其上传至 linux环境 hadoop文件夹内 解压

        tar  -zxvf  hadoop-2.6.4.tar.gz

       如图:

    

   进入 hadoop-2.6.4,可以看到以下内容



2.修改hadoop的配置

配置环境变量

vi /etc/environment
将你所安装的hadoop的路径添加入PATH:(注意用:分隔)

/home/software/hadoop/bin:/home/software/hadoop/sbin

执行如下命令,使之生效:
source /etc/environment

cd etc/hadoop

(1) 在hadoop的文件夹里创建一个hadoop_tmp文件夹,作为hadoop的临时文件

修改core-site.xml

<configuration>  <property>    <name>fs.defaultFS</name>    <value>hdfs://172.19.12.172:9000</value>    <final>true</final>  </property>  <property>    <name>hadoop.tmp.dir</name>    <value>/home/software/hadoop/hadoop_tmp</value>  </property></configuration>

(2)修改hdfs-site.xml

<configuration>   <property>      <name>dfs.namenode.name.dir</name>      <value>/home/software/hadoop/hadoop-2.6.4/dfs/namenode</value>      <final>true</final>    </property>    <property>       <name>dfs.datanode.data.dir</name>       <value>/home/software/hadoop/hadoop-2.6.4/dfs/datanode</value>      <final>true</final>    </property>    <property>      <name>dfs.http.address</name>      <value>172.19.12.172:50070</value>       <description>          The address and the base port where the dfs namenode web ui will listen on.If the port is 0 then the server will start on a free port.      </description>    </property>    <property>      <name>dfs.replication</name>      <value>1</value>    </property>    <property>      <name>dfs.permissions</name>       <value>false</value>    </property></configuration>

(3)修改mapred-site.xml.template(有些人的文件名可能为mapred-site.xml)

<configuration>     <property>      <name>mapreduce.framework.name</name>      <value>yarn</value>    </property>    <property>      <name>mapred.job.tracker</name>      <value>hdfs://172.19.12.172:9001</value>    </property>        <property>          <name>mapred.system.dir</name>          <value>file:/home/software/hadoop/hadoop-2.6.4/mapred/system</value>          <final>true</final>        </property>                <property>            <name>mapred.local.dir</name>            <value>file:/home/software/hadoop/hadoop-2.6.4/mapred/local</value>          <final>true</final>           </property> </configuration>                   

(4)修改yarn-site.xml

<configuration><!-- Site specific YARN configuration properties -->  <property>    <name>yarn.nodemanager.aux-services</name>    <value>mapreduce_shuffle</value>    <description>shuffle service that needs to be set for Map Reduce to run</description>  </property>  <property>    <name>yarn.resourcemanager.hostname</name>    <value>172.19.12.172</value>    <description>hostname of Resource Manager</description>  </property>  <property>        <name>yarn.resourcemanager.webapp.address</name>        <value>172.19.12.172:8088</value>  </property></configuration>

以上四个配置文件非常重要,我配置里面配置的当前虚拟机里ubuntu的ip,这是为了在我的win7 下面可以直接访问虚拟机里面的hadoop服务


3.启动hadoop

第一次启动都要格式化下数据文件,命令:
./bin/hdfs namenode -format
启动hadoop,命令:
./sbin/start-all.sh
停止命令:
./sbin/stop-all.sh

查看,命令:
jps

至此hadoop linux 的安装 就结束了
http://Ip地址:50070
http://Ip地址:8088
可以访问到hadoop的管理界面
以上安装过程 转载 参考 http://www.cnblogs.com/yanglf/p/4020555.html

执行wordcount
(1)将hadoop 启动

hadoop fs -mkdir /input

在HDFS系统中创建input文件目录

(2)创建输入文件,并放入hdfs系统中
sudo sh -c 'echo "hello hadoop" >count.txt'
hadoop fs -put count.txt  /input

(3)

hadoop fs -ls /input

查看文件是否正确传入到/input目录下

hadoop fs -cat /input/count.txt查看文件内容

(4)执行:hadoop安装目录下自带有例子
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.4.jar wordcount /input /output
标红的地方为相对路径

看到这个就成功了
Hadoop2.7.1运行wordcount


hadoop fs -ls /output

查看输出结果的目录

hadoop fs -cat /output/part-r-00000

查看输出结果

结果就是对count.txt文件中单词进行计数统计了,到这就运行完成了。

Hadoop2.7.1运行wordcount

此步骤可参考:http://jingyan.baidu.com/article/ce09321b7a2e052bff858fd9.html

eclipse 安装hadoop可参考 https://my.oschina.net/muou/blog/408543#OSC_h2_8
注意:


以上应该可以让一个初学者完成安装,配置及实例运行




   



0 0
原创粉丝点击