hadoop 词频统计&&adoop jar jar包名.jar 包名.主类名输入路径(文件的目录,不包括文件本身) 输出路径

来源：互联网发布：js走马灯效果编辑：程序博客网时间：2024/05/23 12:28

生成jar包完整操作过程 //www.aboutyun.com/thread-7086-1-1.html

Hadoop fs -put README.txt /0909 上传到Hdfs
Hadoop fs -cat README.txt //查看文件内容
Hadoop jar share/hadoopMapReduce/hadoop-mapreduce-examples-2.5.2.jar wordcount /0909 /output0909 //计算词频
Hadoop fs -ls /output0909
Hadop fs -cat /output0909/part-r-00000 //查看结果
Hadop fs -get /output0909/part-r-00000 .点 //数据拿到本地

Sbin/Stop-all.sh
Shutdown -好
Hadoop dsadmin

cd resource/software/hadoop/apache/hadoop-2.5.2-src
find 点 |grep WorkCount
vi 点/hadoop-mapreduce-examples/src/main/java/org/apache/hadoop/examples/WorkCount.java
secureCRT 或者 xshell(远程访问集群软件)
在xshell
rz 文件上传
yum install lrzsz
sz 文件//下载

格式:
hadoop jar jar包名.jar 包名.主类名输入路径(文件的目录,不包括文件本身) 输出路径
hadoop jar t.jar sogou.UidCollector /c /cm
hadoop jar cys2.jar sogou.UidCollector /uuid /output0909

hadoop fs -cat /shun/usr |wc -l // 查看数据条目数
需要注意的是 jar包名可以自定义在src下的包名.主类名
输入目录必须提前创建而输入的路径不能提前创建

1 Main()
For(){
Job.waitForCompletion(true);//用于job执行
}
2 TokenizerMapper{//切分器
Mapper< 1 2 3 4> 输入&&输出两对参数(key value)输出两对参数第一对一接受上一过程的结构,第二对存放输出结果

默认用空格做切分
}
3 IntSumReducer{//计数器
Mapper< 1 2 3 4> 输入&&输出两对参数第一对一接受上一过程的结构,第二对存放输出结果
从reduce(Text key ,Iterable<> value ,Context )中传来的key ,Context上下文
....
context.write(key,result);//写入到hdfs中
}

0 0

hadoop 词频统计&&adoop jar jar包名.jar 包名.主类名 输入路径(文件的目录,不包括文件本身) 输出路径

hadoop 词频统计&&adoop jar jar包名.jar 包名.主类名输入路径(文件的目录,不包括文件本身) 输出路径