Hadoop之MapReduce调度:通过shell进行多日期的串行跑批统计
来源:互联网 发布:大数据主要来源于哪些 编辑:程序博客网 时间:2024/05/16 15:45
1、统计对应链接访问量的Python脚本
由于业务上暂用不到reduce过程,所以只有一个mapper脚本。
/Users/nisj/PycharmProjects/BiDataProc/hitsCalc3/filter_mapperOnly.py
2、按天调度的shell脚本
/Users/nisj/PycharmProjects/BiDataProc/hitsCalc3/mpBatResultGet.sh
3、扩展
根据需要,可以按不同的链接地址、不同的日志路径及日期进行总体性动态实现;暂时这部分没有做,可能会在以后的版本中涉及和实现。
由于业务上暂用不到reduce过程,所以只有一个mapper脚本。
/Users/nisj/PycharmProjects/BiDataProc/hitsCalc3/filter_mapperOnly.py
#!/usr/bin/env python# encoding: utf-8import sys# 输入为标准输入stdinfor line in sys.stdin: if '/room/m-1015.htm' in line: print '%s' % (line)
2、按天调度的shell脚本
/Users/nisj/PycharmProjects/BiDataProc/hitsCalc3/mpBatResultGet.sh
#!/usr/bin/env bashrm -rf result.txtfor dataDate in 2017-08-21 2017-08-22 2017-08-23 2017-08-24 2017-08-25 2017-08-26 2017-08-27 2017-08-28;doecho $dataDatehadoop dfs -rm -r -skipTrash /nisj/mp_result;hadoop jar /opt/apps/hadoop-2.7.2/share/hadoop/tools/lib/hadoop-streaming-2.7.2.jar \-mapper /home/hadoop/nisj/hitsCalc3/filter_mapperOnly.py -file /home/hadoop/nisj/hitsCalc3/filter_mapperOnly.py \-input /tmp/oss_access/$dataDate/*_localhost_access_log.$dataDate.*.txt \-output /nisj/mp_result#hadoop dfs -cat /nisj/mp_result/*hitsNum=`hadoop dfs -cat /nisj/mp_result/* |grep -v "^$"|wc -l`echo $dataDate '--->' $hitsNum >> result.txtdone
3、扩展
根据需要,可以按不同的链接地址、不同的日志路径及日期进行总体性动态实现;暂时这部分没有做,可能会在以后的版本中涉及和实现。
阅读全文
0 0
- Hadoop之MapReduce调度:通过shell进行多日期的串行跑批统计
- Hadoop之MapReduce调度:通过Python进行多日期多链接地址的串行跑批统计
- Hadoop MapReduce之任务调度
- Hadoop示例程序之单词统计MapReduce
- Hadoop示例程序之单词统计MapReduce
- Hadoop示例程序之单词统计MapReduce
- Hadoop示例程序之单词统计MapReduce
- hadoop基础----hadoop实战(三)-----hadoop运行MapReduce---对单词进行统计--经典的自带例子wordcount
- Hadoop Mapreduce优先级调度
- Hadoop Mapreduce优先级调度
- hadoop mapreduce统计的小例子
- Hadoop开篇之Mapreduce实现多类别流量统计的两种实现方式
- hadoop学习笔记之mapreduce 基于hbase日志数据的最频繁访问ip统计
- 第6章MapReduce--Hadoop作业的调度
- shell:cron进行调度
- Mysql分表数据通过Shell进行导出与统计
- 通过MapReduce统计每个单子在每个文件中出现的次数(FileSplit的使用),单词作为key,所在文本和次数作为value进行统计
- Hadoop MapReduce 统计红楼梦出现次数最多的名字
- Java爬虫--页面跳转爬数据
- HDU5492 Find a path (动态规划)
- MySQL查询表格内容基本语句1
- kafka 安装和使用测试(mac版)
- PAT (Basic Level) Practise (中文)1010. 一元多项式求导 (25)
- Hadoop之MapReduce调度:通过shell进行多日期的串行跑批统计
- json版的轮播图
- Html中行内元素有哪些?块级元素有哪些?
- socket与http的区别
- ACM_51nod 1354 选数字
- zookeeper安装mac版本
- JAVA反射与注解
- 类成员
- post和get的区别