WordCount代码编写

来源:互联网 发布:js classname 编辑:程序博客网 时间:2024/06/08 17:07

本文是在win下装的linux虚拟机,在linux安装的hadoop环境,从而实现一个简单的单词计数功能。
目的:对于words.txt文本文件,对文本中的单词进行统计。

    • 代码流程
    • Map
    • Reduce
    • 通过job对象组装
    • 打jar包

代码流程

  1. 分析具体的业务逻辑,确定输入数据的样式。
  2. 自定义一个类,这个类要继承Mapper类,并重写map方法,在map方法中实现具体的业务逻辑,然后将新的key,value输出。
  3. 自定义一个类,这个类要继承Reducer类,并重写reduce方法,在reduce方法中实现具体的业务逻辑,然后将新的key,value输出
  4. 最后将自定义的map和reduce通过job对象组装起来。

Map

package cn.master.hadoop.mr;import java.io.IOException;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;public class WCMapper extends Mapper<LongWritable, Text, Text, LongWritable>{       //Mapper的参数为输入和输出 ,输入和输出都是key value 的形式。       //重写map方法。    @Override    protected void map(LongWritable key, Text value, Context context)            throws IOException, InterruptedException {        //接收数据v1        String line  =  value.toString();        //切分数据        String[] words = line.split(" ");        //循环        for(String w:words){            //出现一次,记一个1,输出            context.write(new Text(w), new LongWritable(1));        }    }}

Reduce

package cn.master.hadoop.mr;import java.io.IOException;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Reducer;public class WCReducer extends Reducer<Text, LongWritable, Text, LongWritable>{    @Override    protected void reduce(Text k2, Iterable<LongWritable> v2s,            Context context) throws IOException, InterruptedException {        //接收数据        //定义一个计数器        long counter =  0;        //循环v2s        for(LongWritable i : v2s){            counter += i.get() ;        }        //输出        context.write(k2, new LongWritable(counter));           }}

通过job对象组装

package cn.master.hadoop.mr;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Job;import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;//新的接口import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;public class WordCount {    public static void main(String[] args) throws Exception {       Job job =Job.getInstance(new Configuration());//构建job对象       //注意:main方所所在的类设置进去       job.setJarByClass(WordCount.class);       //组装map和reduce       //设置mapper相关的属性       job.setMapperClass(WCMapper.class);       job.setMapOutputKeyClass(Text.class);       job.setMapOutputValueClass(LongWritable.class);       FileInputFormat.setInputPaths(job, new Path("/words.txt"));//hdfs下的path,一般通过参数传递       //设置reduce相关的属性       job.setReducerClass(WCReducer.class);              job.setOutputKeyClass(Text.class);       job.setOutputValueClass(LongWritable.class);       FileOutputFormat.setOutputPath(job, new Path("/wcout418"));       //提交任务       job.waitForCompletion(true);//true:在执行过程中打印进度和详情    }}

打jar包

选择项目,右键->export->jar file 可以在运行的时候选择程序入口,也可以打包时选择程序入口。

虚拟机上执行“hadoop jar 路径 ” 从而得出结果。

1 0
原创粉丝点击