WordCount代码编写

来源：互联网发布：js classname 编辑：程序博客网时间：2024/06/08 17:07

本文是在win下装的linux虚拟机，在linux安装的hadoop环境，从而实现一个简单的单词计数功能。
目的：对于words.txt文本文件,对文本中的单词进行统计。

- 代码流程
- Map
- Reduce
- 通过job对象组装
- 打jar包

代码流程

分析具体的业务逻辑，确定输入数据的样式。
自定义一个类，这个类要继承Mapper类，并重写map方法，在map方法中实现具体的业务逻辑，然后将新的key，value输出。
自定义一个类，这个类要继承Reducer类，并重写reduce方法，在reduce方法中实现具体的业务逻辑，然后将新的key，value输出
最后将自定义的map和reduce通过job对象组装起来。

Map

package cn.master.hadoop.mr;import java.io.IOException;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;public class WCMapper extends Mapper<LongWritable, Text, Text, LongWritable>{       //Mapper的参数为输入和输出 ，输入和输出都是key value 的形式。       //重写map方法。    @Override    protected void map(LongWritable key, Text value, Context context)            throws IOException, InterruptedException {        //接收数据v1        String line  =  value.toString();        //切分数据        String[] words = line.split(" ");        //循环        for(String w:words){            //出现一次，记一个1，输出            context.write(new Text(w), new LongWritable(1));        }    }}

Reduce

package cn.master.hadoop.mr;import java.io.IOException;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Reducer;public class WCReducer extends Reducer<Text, LongWritable, Text, LongWritable>{    @Override    protected void reduce(Text k2, Iterable<LongWritable> v2s,            Context context) throws IOException, InterruptedException {        //接收数据        //定义一个计数器        long counter =  0;        //循环v2s        for(LongWritable i : v2s){            counter += i.get() ;        }        //输出        context.write(k2, new LongWritable(counter));           }}

通过job对象组装

package cn.master.hadoop.mr;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Job;import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;//新的接口import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;public class WordCount {    public static void main(String[] args) throws Exception {       Job job =Job.getInstance(new Configuration());//构建job对象       //注意：main方所所在的类设置进去       job.setJarByClass(WordCount.class);       //组装map和reduce       //设置mapper相关的属性       job.setMapperClass(WCMapper.class);       job.setMapOutputKeyClass(Text.class);       job.setMapOutputValueClass(LongWritable.class);       FileInputFormat.setInputPaths(job, new Path("/words.txt"));//hdfs下的path，一般通过参数传递       //设置reduce相关的属性       job.setReducerClass(WCReducer.class);              job.setOutputKeyClass(Text.class);       job.setOutputValueClass(LongWritable.class);       FileOutputFormat.setOutputPath(job, new Path("/wcout418"));       //提交任务       job.waitForCompletion(true);//true:在执行过程中打印进度和详情    }}

打jar包

选择项目，右键->export->jar file 可以在运行的时候选择程序入口，也可以打包时选择程序入口。

虚拟机上执行“hadoop jar 路径 ” 从而得出结果。

1 0