hadoop 词频统计&&adoop jar jar包名.jar 包名.主类名 输入路径(文件的目录,不包括文件本身) 输出路径

来源:互联网 发布:js走马灯效果 编辑:程序博客网 时间:2024/05/23 12:28

生成jar包完整操作过程 //www.aboutyun.com/thread-7086-1-1.html

Hadoop fs -put README.txt /0909 上传到Hdfs
Hadoop fs -cat README.txt //查看文件内容
Hadoop jar share/hadoopMapReduce/hadoop-mapreduce-examples-2.5.2.jar   wordcount /0909   /output0909 //计算词频
Hadoop fs -ls /output0909
Hadop fs  -cat  /output0909/part-r-00000 //查看结果
Hadop fs  -get  /output0909/part-r-00000  .点  //数据拿到本地




Sbin/Stop-all.sh
Shutdown -好
Hadoop dsadmin

cd resource/software/hadoop/apache/hadoop-2.5.2-src
find  点 |grep WorkCount
vi 点/hadoop-mapreduce-examples/src/main/java/org/apache/hadoop/examples/WorkCount.java
 secureCRT 或者 xshell(远程访问集群软件)
 在xshell
 rz 文件上传
 yum install lrzsz
sz 文件//下载

 
 格式:
 hadoop jar jar包名.jar  包名.主类名    输入路径(文件的目录,不包括文件本身)  输出路径
 hadoop jar t.jar sogou.UidCollector /c /cm
 hadoop jar cys2.jar sogou.UidCollector /uuid /output0909 

hadoop fs -cat /shun/usr |wc -l   // 查看数据条目数
需要注意的是  jar包名可以自定义  在src下的包名.主类名  
输入目录必须提前创建而输入的路径不能提前创建

1 Main()
For(){
Job.waitForCompletion(true);//用于job执行
}
2 TokenizerMapper{//切分器
Mapper< 1 2 3 4> 输入&&输出两对参数(key  value)输出两对参数 第一对一接受上一过程的结构,第二对存放输出结果

 默认用空格做切分
}
3 IntSumReducer{//计数器
Mapper< 1 2 3 4> 输入&&输出两对参数 第一对一接受上一过程的结构,第二对存放输出结果
从reduce(Text key ,Iterable<> value ,Context )中传来的key ,Context上下文
....
context.write(key,result);//写入到hdfs中
}


0 0
原创粉丝点击