《hadoop实战》笔记2
来源:互联网 发布:淘宝 性冷淡风知乎 编辑:程序博客网 时间:2024/05/19 02:31
编写MapReduce基础程序
MapReduce程序框架
1. 典型的hadoop程序模板
框架的核心在run()方法中,也成为driver。它实例化、配置并传递一个JobConf对象命名的作业给JobClient.runJob()以启动MapReduce作业
2. driver配置
3. API变化
4. hadoop中的Streaming
Streaming完全采用文本方式处理数据,不知道其他的数据类型
hadoop支持用其他非java语言编写程序,要用到Streaming的通用API,开发快捷,充分利用其他非java库
hadoop streaming使用Unix中的流与程序进行交互
通过Unix命令使用Streaming:
bin/hadoop jar conrtib/streaming/hadoop-0.19.1-streaming.jar
-input input/cite75_99.txt---设定输入文件
-output output---设定输出文件
-mapper 'cut -f 2 -d ,'---cut命令提取第二列,并声明列是被逗号分隔的
-reducer 'uniq'---对排序后的数据进行去重
-mapper 'wc -l' ---统计每个分片中的记录数
-D mapred.reduce.tasks=0---mapper直接输出结果不经过reducer
通过脚本使用Streaming:
可使用任何可执行的脚本来处理按行组织的数据流,数据取自Unix的标准输入STDIN,并输出到STDOUT。
脚本从STDIN采样数据
cat input.txt | RandomSample.py 10 >sampled_output.txt参数10表示sampled_output.txt大约包含input.txt中十分之一的记录
数据采样(采样处理较小数据集带来速度和便利)产生的精度损失重要程度取决于要计算的什么以及数据集如何分布
bin/hadoop jar conrtib/streaming/hadoop-0.19.1-streaming.jar
-input input/cite75_99.txt---设定输入文件
-output output---设定输出文件
-mapper 'RandomSample.py 10‘
-file RandomSample.py
-D mapred.reduce.tasks=1---没有设定特殊的reducer,默认采用IdentityReducer,把输入直接转向输出
Aggregate软件包
功能:数据集的汇总统计
命令:
-reducer aggregate
5. 使用Combiner提升性能
计数统计的MapReduce基础程序
支持用脚本语言编写MapReduce程序的Hadoop流式API
用于提升性能的Combiner
高阶MapReduce
编程实战
细则手册
管理Hadoop
0 0
- 《hadoop实战》笔记2
- 《Hadoop实战》的笔记-2、Hadoop输入与输出
- 《Hadoop实战》的笔记-2、Hadoop输入与输出
- 《Hadoop实战》第一部分阅读笔记
- 2015Hadoop数据处理实战视频教程笔记
- Hadoop实战(上)--学习笔记
- Hadoop入门——《Hadoop实战初级部分》学习笔记
- 安装Hadoop——Hadoop实战初级部分学习笔记
- Hadoop脚本——Hadoop实战初级部分学习笔记
- Hadoop HDFS——Hadoop实战初级部分学习笔记
- Hadoop小兵笔记【二】Hadoop分布式集群扩展实战经验
- 《hadoop实战2》读书笔记(1)
- hadoop实战
- hadoop实战
- Hadoop实战
- 《Hadoop实战》的笔记-说明一下Pig与Hive
- 《hadoop实战》笔记1—分布式编程框架
- [hadoop+spark+python]大数据实战随手笔记
- 建立php开发环境(XAMPP + Xdebug+Zend Studio)
- Java解析XML文档DOM入门案例
- 代码示例
- java设计模式学习笔记4 代理模式-动态代理
- 基于Python+Robot框架TA环境的搭建
- 《hadoop实战》笔记2
- android 电容屏
- word 文档消除波浪线
- 基于协同过滤构建简单推荐系统
- “栈和队列”之队列--基本数据结构
- OpenCV——ORB & BRIEF(特征点篇)&Location
- Java解析XML文档SAX入门案例
- 虚拟机与主机共享不了文件
- java反射详解