hadoop mapreduce 之wordcount 编译执行

来源:互联网 发布:淘宝卖家查看店铺粉丝 编辑:程序博客网 时间:2024/04/27 01:38

hadoop 版本为2.2.0, 伪分布式运行


1. 部署hadoop集群环境,可以设置为伪分布式运行

(1)安装java jdk, 可以直接下载至 /opt/java目录下完成安装(/opt 用于第三方软件,且没有依赖,可以随时删除)

(2)修改 /etc/profile。添加JAVA_HOME,以及修改PATH

(3)下载解压安装包,直接解压到/opt/hadoop 目录下完成安装

(4)修改配置文件,添加 JAVA_HOME, 并注意端口的设置(参考网络)

(5)修改/etc/profile, 添加HADOOP_HOME, 并修改PATH

(6)运行 $HADOOP_HOME/bin/hdfs namenode -format 格式化namenode

(7)执行$HADOOP_HOME/sbin/start-dfs.sh 启动namenode和datanode,用jps查看是否启动成功,注意hostname设置被/etc/hosts 解析以及端口设置,防火墙关闭

(8)执行 $HADOOP_HOME/sbin/start-yarn.sh

2. 编写 java程序(参看网络)

注意不要有包名


3. 编译

$ javac -classpath $HADOOP_HOME/share/hadoop/common/hadoop-common-2.2.0.jar:$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-client-core-2.2.0.jar:$HADOOP_HOME/share/hadoop/common/lib/commons-cli-1.2.jar:$HADOOP_HOME/share/hadoop/mapreduce/lib/hadoop-annotations-2.2.0.jar      -d wordcount_classes WordCount.java


4. 打包成jar

$ jar -cvf wordcount.jar -C wordcount_classes/  .


5.运行

hadoop jar /home/hadoop/myprogram/wordcount.jar WordCount /app/word_count/input/inputfile /app/word_count/output

0 0
原创粉丝点击