MR笔记:Map-Reduce实践笔记
来源:互联网 发布:淘宝信用卡套现 编辑:程序博客网 时间:2024/05/23 01:15
1:一些
瓶颈在I/O这一块,因为大数据的传输。
通过分片实现数据计算本地化,一个分片对应一个task
其他并行计算框架:MPI PVM CUDA BOINC
目前云计算主流解决方案:Hadoop与Openstack(EC2的山寨版,EC2是云计算开山之作,属于亚马逊)
2:应用
hadoop进行日志收集与分析(eg.京东POP 淘宝数据魔方)
淘宝:hadoop集群/云梯 storm实时处理/银河 数据存入MySql/MyFOX与HBase/Prom普罗米修斯
百度hadoop:用户搜索日志与访问日志
3:执行
设置Reducer数目:mapred-site.xml
添加属性mapred.reduce.tasks,缺省为1
多个class打成test.jar:jar cvf ./test.jar ./*.class
运行mapreduce:bin/hadoop jar ./test.jar Test ./in/data/shuju ./out
4:性能调优
reducer数目
输入大文件优于小文件
减少网络输出:压缩map的输出
调节每个节点能运行的任务数:mapred.tasktracker.map.tasks.maximum和mapred.tasktracker.reduce.tasks.maximum
缺省为2
5:传统统计脚本M-R化
hadoop-streaming:无需任何API,即可完美融合,分布式计算加速传统任务。
6:linux自带wordcount
root@ServerTony:/home/tony/input# cat test1.txt
hello world
root@ServerTony:/home/tony/input# cat test1.txt | wc
1 2 12
root@ServerTony:/home/tony/input# cat test1.txt | wc -l
1
root@ServerTony:/home/tony/input# cat test1.txt | wc -w
2
root@ServerTony:/home/tony/input# cat test1.txt | wc -c
12
hadoop-streaming运行linux自带wc:
bin/hadoop jar contrib/streaming/hadoop-streaming-1.2.1.jar -input in -output output -mapper /bin/cat -reducer /usr/bin/wc
root@ServerTony:/home/tony/hadoop-1.2.1# bin/hadoop fs -cat ./output/part-00000
2 4 27
7:任务执行优化
mapred.job.reuse.jvm.num.tasks设置单个JVM运行上限最大任务数,-1表示无限制
瓶颈在I/O这一块,因为大数据的传输。
通过分片实现数据计算本地化,一个分片对应一个task
其他并行计算框架:MPI PVM CUDA BOINC
目前云计算主流解决方案:Hadoop与Openstack(EC2的山寨版,EC2是云计算开山之作,属于亚马逊)
2:应用
hadoop进行日志收集与分析(eg.京东POP 淘宝数据魔方)
淘宝:hadoop集群/云梯 storm实时处理/银河 数据存入MySql/MyFOX与HBase/Prom普罗米修斯
百度hadoop:用户搜索日志与访问日志
3:执行
设置Reducer数目:mapred-site.xml
添加属性mapred.reduce.tasks,缺省为1
多个class打成test.jar:jar cvf ./test.jar ./*.class
运行mapreduce:bin/hadoop jar ./test.jar Test ./in/data/shuju ./out
4:性能调优
reducer数目
输入大文件优于小文件
减少网络输出:压缩map的输出
调节每个节点能运行的任务数:mapred.tasktracker.map.tasks.maximum和mapred.tasktracker.reduce.tasks.maximum
缺省为2
5:传统统计脚本M-R化
hadoop-streaming:无需任何API,即可完美融合,分布式计算加速传统任务。
6:linux自带wordcount
root@ServerTony:/home/tony/input# cat test1.txt
hello world
root@ServerTony:/home/tony/input# cat test1.txt | wc
1 2 12
root@ServerTony:/home/tony/input# cat test1.txt | wc -l
1
root@ServerTony:/home/tony/input# cat test1.txt | wc -w
2
root@ServerTony:/home/tony/input# cat test1.txt | wc -c
12
hadoop-streaming运行linux自带wc:
bin/hadoop jar contrib/streaming/hadoop-streaming-1.2.1.jar -input in -output output -mapper /bin/cat -reducer /usr/bin/wc
root@ServerTony:/home/tony/hadoop-1.2.1# bin/hadoop fs -cat ./output/part-00000
2 4 27
7:任务执行优化
mapred.job.reuse.jvm.num.tasks设置单个JVM运行上限最大任务数,-1表示无限制
0 0
- MR笔记:Map-Reduce实践笔记
- Python学习笔记 - map reduce
- hadoop map reduce 阶段笔记
- hadoop map reduce 阶段笔记
- map,zip,reduce用法简略笔记【Python】
- Map-Reduce体系结构学习笔记一
- hadoop学习笔记之Map-Reduce
- Hadoop 笔记之Map && Reduce数量确定
- python入门笔记(Day4)--map,reduce
- Hadoop笔记 --- Map, Reduce, Shuffle 总结
- python学习笔记,map/reduce,filter,sorted
- map,zip,reduce,lambda函数学习笔记
- hadoop学习笔记<四>----map-reduce工作原理
- Hadoop学习笔记(二)——map reduce Helloworld
- [笔记]PageRank算法简介及Map-Reduce实现
- [笔记]PageRank算法简介及Map-Reduce实现
- Hadoop学习笔记(Map-Reduce的工作、调度机制)
- Hadoop笔记之map &&shuffle && reduce 工作流程图及其分析
- 基数树(radix tree)
- 编写Web时可能会用的工具类----SqlHelper.java(韩顺平)
- android中的OOM和内存分析
- LED 四个8x8 组合 16X16点阵移位分析
- vc windows服务程序调试
- MR笔记:Map-Reduce实践笔记
- Java虚拟机深入学习之三: Java虚拟机的垃圾收集算法
- 基于.NET WPF+ASP.NET MVC4技术构建夜猫商务会所运营管理平台
- HBase实战
- 【Android小应用】强迫症头像生成器
- java Eclipse 环境配置以及软件下载
- Lua学习笔记 第十八章 数学库
- ActionForm详解
- 懂得SEO不是全部,网站最终出路在于思维方式