hadoop mapreduce 之wordcount 编译执行

来源：互联网发布：淘宝卖家查看店铺粉丝编辑：程序博客网时间：2024/04/27 01:38

hadoop 版本为2.2.0，伪分布式运行

1. 部署hadoop集群环境，可以设置为伪分布式运行

（1）安装java jdk，可以直接下载至 /opt/java目录下完成安装（/opt 用于第三方软件，且没有依赖，可以随时删除）

（2）修改 /etc/profile。添加JAVA_HOME，以及修改PATH

（3）下载解压安装包，直接解压到/opt/hadoop 目录下完成安装

（4）修改配置文件，添加 JAVA_HOME，并注意端口的设置（参考网络）

（5）修改/etc/profile, 添加HADOOP_HOME，并修改PATH

（6）运行 $HADOOP_HOME/bin/hdfs namenode -format 格式化namenode

（7）执行$HADOOP_HOME/sbin/start-dfs.sh 启动namenode和datanode，用jps查看是否启动成功，注意hostname设置被/etc/hosts 解析以及端口设置，防火墙关闭

（8）执行 $HADOOP_HOME/sbin/start-yarn.sh

2. 编写 java程序（参看网络）

注意不要有包名

3. 编译

$ javac -classpath $HADOOP_HOME/share/hadoop/common/hadoop-common-2.2.0.jar:$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-client-core-2.2.0.jar:$HADOOP_HOME/share/hadoop/common/lib/commons-cli-1.2.jar:$HADOOP_HOME/share/hadoop/mapreduce/lib/hadoop-annotations-2.2.0.jar -d wordcount_classes WordCount.java

4. 打包成jar

$ jar -cvf wordcount.jar -C wordcount_classes/ .

5.运行

hadoop jar /home/hadoop/myprogram/wordcount.jar WordCount /app/word_count/input/inputfile /app/word_count/output

0 0